Hirdetés

Portrékból csinál élethű beszélő arcokat a Microsoft új mesterséges intelligenciája



|

Lenyűgöző technológiát mutattak be a redmondiak, aminek egy szimpla fotó és egy rövid hangminta is elég, hogy munkához lásson.

Hirdetés

Ember legyen a talpán, aki manapság képes kiigazodni az egymást érő, generatív mesterséges intelligenciával kapcsolatos bejelentések között, de a technológia rohamos fejlődése még annak is feltűnhetett, aki csak fél szemmel követi az eseményeket. Az OpenAI-jal összefogott Microsoft az egyik legnagyobb játékos a piacon, amely az AI-offenzíva keretében már novemberben prezentált egy deepafake avatár-generátort, most pedig egy még lenyűgözőbb megoldással állt elő a cég.

A redmondi mérnökök legújabb megoldása ugyanis már egy puszta fotó és egy rövid hangminta alapján képes élethűnek ható beszélő figurákat alkotni, akár festményeket is életre keltve.

Hirdetés

A VASA-1 néven futó mesterséges intelligencia fogja a betáplált fotót és a hangmintát, majd realisztikus mimikával, valamint fej-és szájmozgással bírja mozgásra az arcot, amely tetszőleges szövegekről beszél a mintából generált hangon. A technológia ugyan nem teljesen új, hiszen korábban a Runway és az Nvidia is mutatott hasonlókat, a Microsoft elképzelése viszont kifinomultabbnak hat a korábbiaknál.

A VASA-1 legfeljebb 512x512 pixel felbontású animációkat hoz létre másodpercenként 45 képkocka megjelenítésével, egy GeForce RTX 4090-el felszerelt asztali PC-n pedig nagyjából két percre van ehhez szüksége. A modell nem igényel tökéletes, előre néző képeket, és változatos művészeti stílusokkal is megbirkózik, az alábbi GIF-en például a Mona Lisát keltette életre, mintha Leonardo Da Vinci műve csak egy festmény lenne a Harry Potterből.

Nem nehéz belátni, hogy egy ilyen eszközzel akár egy videóból kivágott hanganyag és egy közösségi médiás fotó alapján is bármit egy tetszőleges ember szájába adhatunk, vagyis cseppet sem veszélytelen a technológia. Ebből a szempontból jó hír, hogy a VASA-1 csak a Microsoft mérnökei számára hozzáférhető, akik nem számolnak nyilvános kiadással, sőt egyéb termékekbe építve sem szeretnék hozzáférhetővé tenni a megoldást.

Pedig az ilyen vívmányok akár hasznosak is lehetnek, például a játékbeli karakterek élethűbbé tételével, vagy a filmiparban. Amíg azonban nem sikerül kielégítő biztosítékokat beépíteni a visszaélések ellen, valószínűsíthető, hogy egyetlen ehhez hasonló technológia sem válik könnyedén hozzáférhetővé a nagyközönség számára, amit az OpenAI-féle Sora videógenerátor megfontolt bevezetése is jól illusztrál.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.