Néhány évvel ezelőtt a legtöbb ember valószínűleg csak értetlenül pislogott volna az OpenAI nevének hallatán, manapság viszont ez az egyik legnagyobb figyelmet élvező szereplő a tech világban, köszönhetően a mesterséges intelligenciára épülő ChatGPT chatbot és a DALL-E képgenerátor zajos sikerének, amelyek valóságos AI-őrületet robbantottak ki.
A szövegek és az állóképek meghódítása után logikus volt, hogy a Microsoft több mint 10 milliárd dolláros befektetését élvező cég a videókra is kiterjeszti a tevékenységét, most pedig be is nevezett a műfajba egy új technológiával, amely nem kevésbé lenyűgöző, mint az elődei.
Az OpenAI weboldalán beharangozott Sora a ChatGPT-hez és a DALL-E-hez hasonlóan ugyancsak szöveges utasítások segítségével hoz létre legfeljebb egy perc hosszúságú videós anyagokat, a felhasználó által kínált témákban.
"A Sora képes összetett jeleneteket generálni több szereplővel és meghatározott típusú mozgásokkal, valamint a téma és a háttér pontos részleteinek megalkotásával. A modell nemcsak azt érti meg, hogy a felhasználó mit kért a parancsban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban."
- írja az új text-to-video modellről a fejlesztő, több látványos felvételt is mellékelve a hivatalos bejelentésben.
A közlemény alapján a nyelv mély megértésével a Sora képes pontosan feldolgozni az utasításokat, akár élénk érzelmeket kifejező karaktereket generálva. A technológia továbbá egyetlen videón belül több felvételt is létre tud hozni, amelyek szorosan követik a korábban előállított karaktereket és a vizuális stílust.
Az OpenAI ugyanakkor elismeri, hogy az új üdvöskének vannak gyengeségei is. Így például nehezen szimulálja egy összetettebb jelenet fizikáját, és nem érti az ok-okozati összefüggések konkrét eseteit sem. Emiatt előfordulhat, hogy mondjuk egy szereplő beleharap egy sütibe, a következő jelenetben pedig már nem biztos, hogy még mindig látható lesz rajta a harapás nyoma. A hollywoodi rendezők által is gyakran elkövetett bakin túl a Sora a térbeli utasításokat is nehézkesen kezeli, ezért összekeverheti a jobb és bal oldalt, valamint az időben lezajló események leírása is zavarba hozhatja, mondjuk ha egy adott kamerapályát kell követnie.
Mindezek ellenére a minták alapján a Sora így is döbbenetesen élethű videókat alkot, ami egyben végtelenül ijesztő is, hiszen egy ilyen technológia számos lehetőséget biztosít a visszaélésekre, legyen szó hírhamisításról, tiltott szexuális tartalmak generálásáról vagy ismert emberek képmásával elkövetett csalásokról. Éppen ezért az OpenAI eleinte szakértők bevonásával, szűk körben teszteli a technológiát, és biztonsági intézkedéseket is beépít. Ennek jegyében eleve szűrésre kerülnek a szöveges parancsok, hogy a Sorával ne lehessen a szabályokba ütköző tartalmakat generálni, valamint egy eszközt is létrehoznak, ami felismeri a modellel létrehozott videókat.
Végezetül érdemes megjegyezni, hogy az OpenAI ezúttal sincs egyedül a piacon, hiszen korábban olyan szereplők mutattak be saját text-to-video modelleket, mint a Meta, a Google, a Pika vagy a Runway, melyek közül az utóbbiak már a nagyközönség számára is használhatók.