A Facebookot és az Instagramot összefogó Meta az előző hónapban jelentette be, hogy egy új mesterséges intelligenciás technológiát készített, amely egy mindössze 2 másodperces minta alapján is képes szintetizálni egy adott beszélő hangját. A Mark Zuckerberg vezette cég nem hajlandó nyilvánosságra hozni a Voicebox néven futó megoldást, mert túl veszélyesnek tartja, most viszont a Google is színre lépett.
A The Decoder beszámolója alapján ugyanis a keresőóriás nemrég egy hasonló technológiát leplezett le, amely a szinkronizálást is forradalmasíthatja.
A Google saját nagy nyelvi modelljére, a PaLM-2-re épülő AudioPaLM-nak egy valamivel hosszabb, legalább 3 mp-es mintára van szüksége az emberi beszélők leutánozásához, cserébe viszont írott szöveget is generál az elhangzottakból, illetve más nyelvekre is lefordítja azt. Így aztán az algoritmus akár a beszélő hangján megszólaló szinkronokat is tud készíteni. Mindezt az alábbi videós bemutató prezentálja.
A fordítás az audiofájlokból készített szöveges átiratoknál is elérhető, illetve a Google szerint az AudioPaLM beszédfelismerésre is tökéletesen alkalmas. A technológia mindezzel számos felhasználási területen vethető be a többnyelvű hangalapú asszisztensektől az automatizált átíró alkalmazásokig.
"A modell egyedülálló módon képes megőrizni a beszélő identitását és az intonációt a fordításban, még a képzés során nem látott nyelvek és nyelvi kombinációk esetében is, ami rendkívül hasznos a többnyelvű kommunikációs alkalmazások számára."
- írja az AudioPaLM-ról a Google tanulmánya, amely a GitHub-on érhető el. De nem ez az egyetlen hasonló technológia a keresőóriás háza táján: a cég szárnyai alá tartozó YouTube nemrég dicsekedett el vele, hogy MI-generált szinkronokkal bővül a platform, amelyeket az Aloud nevű, korábban felvásárolt startup által kidolgozott algoritmusra alapoznak.