A mesterséges intelligencia utóbbi években bekövetkezett rohamos fejlődése sok olyan vitát generált, amelyek korábban csak a sci-fi történetekben és az elméleti fejtegetésekben léteztek, mint például hogy művészetnek tekinthető-e egy algoritmus által generált festmény, vagy hogy milyen veszélyeket hordoznak az emberek arcát szimulálni képes deepfake-videók.
Ha eddig nem lett volna elég riasztó a helyzet, a Microsoft most egy olyan algoritmussal állt elő, amely bárkinek a hangját képes élethűen szimulálni, teljessé téve a képalkotó technológiák által elérhető illúziót.
A VALL-E-nek nevezett, gépi tanuláson alapuló mesterséges intelligenciának csupán egy 3 másodperces mintára van szüksége ahhoz, hogy egy bevitt szöveg alapján új szavakat "mondjon el" egy hús-vér ember hangján. Az algoritmus még a mintát jellemző audio-környezetre is reagál, vagyis ha az alapanyag egy kissé visszhangzó-recsegő telefonbeszélgetés, akkor a végeredmény is olyan lesz.
A Microsoft szerint a VALL-E-t az emeli ki a hasonló próbálkozások tengeréből, hogy ez a technológia nem a hullámformák puszta manipulálásával szintetizálja a beszédet, hanem a forrás lebontásával diszkrét audio kodek-kódokat generál, és azok segítségével hozza létre a szimulációt. Ennek alapja a Meta által tavaly bemutatott EnCodec-technológia, az algoritmus betanítását pedig a Mark Zuckerberg vezette cég hangkönyvtárára támaszkodva végezték el.
A LibriLight nevű adatbázis 60 ezer órányi angol hanganyagot tartalmaz több mint 7000 beszélőtől, így bőven volt mire építeni a Microsoftnál. Akit érdekel az eredmény, a VALL-E demó weboldalán rengeteg hangmintát találhat, ahol összevethetők az emberi beszélők által elmondottak és a szimulált hangok. A gyűjtemény alapján a redmondiak technológiája helyenként valóban megdöbbentő pontossággal dolgozik, de azért olyan felvételek is akadnak, ahol erősen kilóg az MI-lóláb.
A Microsoft szerint hosszabb távon a VALL-E magas minőségű szövegfelolvasókban és az audio- és videótartalmak utólagos szerkesztésében lehet hasznos, egyelőre azonban nem teszik elérhetővé, mivel tisztában vannak a technológia veszélyeivel. A vállalat azt ígéri, hogy a biztonság növelése érdekében létrehoz egy ellenőrzési modellt, amivel kiszúrhatók a VALL-E segítségével készült hamis anyagok.