Portrékból csinál élethű beszélő arcokat a Microsoft új mesterséges intelligenciája

Ikker Zsolt

| 2024 április 20. 07:03

Lenyűgöző technológiát mutattak be a redmondiak, aminek egy szimpla fotó és egy rövid hangminta is elég, hogy munkához lásson.

Hirdetés

Ember legyen a talpán, aki manapság képes kiigazodni az egymást érő, generatív mesterséges intelligenciával kapcsolatos bejelentések között, de a technológia rohamos fejlődése még annak is feltűnhetett, aki csak fél szemmel követi az eseményeket. Az OpenAI-jal összefogott Microsoft az egyik legnagyobb játékos a piacon, amely az AI-offenzíva keretében már novemberben prezentált egy deepafake avatár-generátort, most pedig egy még lenyűgözőbb megoldással állt elő a cég.

A redmondi mérnökök legújabb megoldása ugyanis már egy puszta fotó és egy rövid hangminta alapján képes élethűnek ható beszélő figurákat alkotni, akár festményeket is életre keltve.

Hirdetés

A VASA-1 néven futó mesterséges intelligencia fogja a betáplált fotót és a hangmintát, majd realisztikus mimikával, valamint fej-és szájmozgással bírja mozgásra az arcot, amely tetszőleges szövegekről beszél a mintából generált hangon. A technológia ugyan nem teljesen új, hiszen korábban a Runway és az Nvidia is mutatott hasonlókat, a Microsoft elképzelése viszont kifinomultabbnak hat a korábbiaknál.

A VASA-1 legfeljebb 512x512 pixel felbontású animációkat hoz létre másodpercenként 45 képkocka megjelenítésével, egy GeForce RTX 4090-el felszerelt asztali PC-n pedig nagyjából két percre van ehhez szüksége. A modell nem igényel tökéletes, előre néző képeket, és változatos művészeti stílusokkal is megbirkózik, az alábbi GIF-en például a Mona Lisát keltette életre, mintha Leonardo Da Vinci műve csak egy festmény lenne a Harry Potterből.

Nem nehéz belátni, hogy egy ilyen eszközzel akár egy videóból kivágott hanganyag és egy közösségi médiás fotó alapján is bármit egy tetszőleges ember szájába adhatunk, vagyis cseppet sem veszélytelen a technológia. Ebből a szempontból jó hír, hogy a VASA-1 csak a Microsoft mérnökei számára hozzáférhető, akik nem számolnak nyilvános kiadással, sőt egyéb termékekbe építve sem szeretnék hozzáférhetővé tenni a megoldást.

Pedig az ilyen vívmányok akár hasznosak is lehetnek, például a játékbeli karakterek élethűbbé tételével, vagy a filmiparban. Amíg azonban nem sikerül kielégítő biztosítékokat beépíteni a visszaélések ellen, valószínűsíthető, hogy egyetlen ehhez hasonló technológia sem válik könnyedén hozzáférhetővé a nagyközönség számára, amit az OpenAI-féle Sora videógenerátor megfontolt bevezetése is jól illusztrál.

MSI Vector 16 HX AI teszt – így szép csak igazán a gamerlét Bivalyerős Intel CPU és GeForce RTX 50-es GPU dübörög az új Vector 16-ban, ami nem titkolja el, hogy PC-gamernek lenni milyen jó dolog is.

Hirdetés

Portrékból csinál élethű beszélő arcokat a Microsoft új mesterséges intelligenciája

Hirdetés

Verhetetlen áron zsákolhatod be a Windows 11 Prót

Kövess Facebookon!

Hamarosan minden telefonon jelezni kell, hogy meddig bírja az aksija

A Seagate szerint többet ártanak a környezetnek az SSD-k, mint a merevlemezek

Így védekezz az új adathalász-trükk ellen

Ingyen adja a Google a Gemini AI prémium csomagját a diákoknak, de nem örökre

Ha új tévét veszel, ezeket a funkciókat mindenképp tudnia kell!

Alkotmányellenesnek minősítették a törvényt, ami szülői felügyelethez kötötte a 16 évnél fiatalabbak közösségi oldalak használatát