Az elmúlt fél év kétségtelenül a mesterséges intelligenciás szolgáltatások terén kirobban verseny bűvöletében zajlott, amit elsősorban a Microsoft és Google egymásnak feszülése határoz meg a keresőpiacon, miközben a metaverzummal nyomuló Meta mintha csak a partvonalról figyelné az eseményeket.
Pedig a Facebookot, az Instagramot és a WhatsAppot is dirigáló vállalatóriás jelentős MI-fejlesztéseken is dolgozik, melyek közül nemrég egy hasznos, de veszélyes technológiát villantottak meg a nyilvánosságnak.
Ez pedig nem más, mint a Voicebox nevű szövegfelolvasó, amely a Mark Zuckerberg vezette cég szerint minden korábbi megoldásnál élethűbben reprodukálja az emberi hangokat, akár egy mindössze két másodperces minta alapján. Az ezt lehetővé tevő algoritmust 50 ezer órányi felvett anyagon trenírozták, az angol mellett pedig németül, franciául, lengyelül, spanyolul és portugálul is megszólal a technológia.
A Meta azonban egyelőre csak egy rövid szöveges bemutatót és egy szakmai tanulmányt közölt a megoldásról, mivel Zuckerbergék a jelenlegi formájában túl veszélyesnek tartják a Voiceboxot ahhoz, hogy nyilvánosan is hozzáférhetővé tegyék:
"A generatív beszédmodelleknek számos izgalmas felhasználási területük van, a visszaélések lehetséges kockázatai miatt azonban jelenleg nem tesszük nyilvánosan elérhetővé a Voicebox modellt, vagy annak kódját. Miközben fontosnak tartjuk, hogy nyitottak legyünk a mesterséges intelligenciás közösség felé, és hogy megosszuk kutatásainkat az MI tudományának további fejlesztése érdekében, a nyitottság és a felelősségtudat közötti megfelelő egyensúlyt is meg kell találnunk."
- írja a Meta blogposztja. A hamisításra is tökéletesen alkalmas Voicebox így egyelőre a színfalak mögött marad, de ha egyszer elszabadul, akkor az olyan területeken lehet hasznos, mint a hangjukat elvesztett emberek hozzásegítése a természetes beszédhez, az élő fordítás vagy hanganyagok utólagos korrigálása (pl. egy rosszul ejtett szó kijavítása egy videóban). A biztonság érdekében a Meta készített egy "classifier" néven emlegetett eszközt is, amely nagy bizonyossággal, de nem 100%-os pontossággal képes kiszúrni a hanggenerátorral létrehozott tartalmakat.