A Microsoft mesterséges intelligenciája már bárkinek a hangját képes szimulálni

Horváth Péter

| 2023 január 11. 10:01

A VALL-E nevű technológiának mindössze egy 3 másodperces mintára van szüksége, hogy leutánozza az emberi alanyok hangját.

Hirdetés

A mesterséges intelligencia utóbbi években bekövetkezett rohamos fejlődése sok olyan vitát generált, amelyek korábban csak a sci-fi történetekben és az elméleti fejtegetésekben léteztek, mint például hogy művészetnek tekinthető-e egy algoritmus által generált festmény, vagy hogy milyen veszélyeket hordoznak az emberek arcát szimulálni képes deepfake-videók.

Ha eddig nem lett volna elég riasztó a helyzet, a Microsoft most egy olyan algoritmussal állt elő, amely bárkinek a hangját képes élethűen szimulálni, teljessé téve a képalkotó technológiák által elérhető illúziót.

Hirdetés

A VALL-E-nek nevezett, gépi tanuláson alapuló mesterséges intelligenciának csupán egy 3 másodperces mintára van szüksége ahhoz, hogy egy bevitt szöveg alapján új szavakat "mondjon el" egy hús-vér ember hangján. Az algoritmus még a mintát jellemző audio-környezetre is reagál, vagyis ha az alapanyag egy kissé visszhangzó-recsegő telefonbeszélgetés, akkor a végeredmény is olyan lesz.

A Microsoft szerint a VALL-E-t az emeli ki a hasonló próbálkozások tengeréből, hogy ez a technológia nem a hullámformák puszta manipulálásával szintetizálja a beszédet, hanem a forrás lebontásával diszkrét audio kodek-kódokat generál, és azok segítségével hozza létre a szimulációt. Ennek alapja a Meta által tavaly bemutatott EnCodec-technológia, az algoritmus betanítását pedig a Mark Zuckerberg vezette cég hangkönyvtárára támaszkodva végezték el.

A LibriLight nevű adatbázis 60 ezer órányi angol hanganyagot tartalmaz több mint 7000 beszélőtől, így bőven volt mire építeni a Microsoftnál. Akit érdekel az eredmény, a VALL-E demó weboldalán rengeteg hangmintát találhat, ahol összevethetők az emberi beszélők által elmondottak és a szimulált hangok. A gyűjtemény alapján a redmondiak technológiája helyenként valóban megdöbbentő pontossággal dolgozik, de azért olyan felvételek is akadnak, ahol erősen kilóg az MI-lóláb.

A Microsoft szerint hosszabb távon a VALL-E magas minőségű szövegfelolvasókban és az audio- és videótartalmak utólagos szerkesztésében lehet hasznos, egyelőre azonban nem teszik elérhetővé, mivel tisztában vannak a technológia veszélyeivel. A vállalat azt ígéri, hogy a biztonság növelése érdekében létrehoz egy ellenőrzési modellt, amivel kiszúrhatók a VALL-E segítségével készült hamis anyagok.

Szép, gyors és mindenre képes – tényleg bármit megtehetsz a Pura 70-nel (x)A modern kor svájci bicskája az okostelefon, méghozzá az appoknak hála, amiből bármilyen vígan elfut a Huawei Pura 70-en. Mutatjuk, miként omlanak le a Google-mentesség falai.

Hirdetés

A Microsoft mesterséges intelligenciája már bárkinek a hangját képes szimulálni

Hirdetés

Verhetetlen áron zsákolhatod be a Windows 11 Prót

Kövess Facebookon!

Kijev az egyik űrhajós letartóztatását kéri az űrállomás fedélzetén

A One és DIGI szolgáltatók bejelentették, 2026-ig nem emelkednek az árak

Kína bemutatta a HDMI és DisplayPort kihívóját

Komoly hiba miatt állította le a Samsung a One UI frissítését

A Microsoft most már tényleg nem vár tovább: elkezdték kigurítani a Recall tesztverzióját

A böngésző, ami nem fecseg rólad - a legjobb Brave tippek