A mesterséges intelligenciát egy ideje már nem csak arra lehet használni, hogy felismertessük vele, mi szerepel egy képen, hanem akár soha nem létező dolgokat is rendkívül hihető módon rajzoltathatunk meg egy-egy, gépi tanulással létrejött programmal. Míg az Nvidia segítségével készülő GauGAN2 alapvetően realisztikus tájképekre specializálódott, egy másik projekt pedig hihető emberi arcokat gyárt, addig az OpenAI kísérlete, a DALL-E második generációja tényleg majdnem mindent le tud rajzolni.
A szóban forgó MI rendkívül érdekes módszerrel dolgozik, a kiindulási pontot egy teljesen zajos kép adja. Ezt addig tisztítgatja a zajtól és rendezgeti a DALL-E 2 (ami nevét Salvador Dalí neve és a WALL-E ötvözéséből kapta), amíg meg nem jelennek olyan minták, amiket korábbi tanulmányai alapján felismer, és a program szerint megfelel a szavakból álló utasításnak. Ez a modell egyébként kisebb és hatékonyabb az MI-t tervező mérnökök szerint, mint a DALL-E korábbi kiadása, így azt is megengedhetik az üzemeltetők, hogy több megoldást is készítsen az MI ugyanarra a feladatra, amik közül aztán a felhasználó választhatja ki, melyik tetszik neki a legjobban.
Az olyan váratlan utasítások megvalósításán túl, mint "egy tengeri vidra a Leány gyöngy fülbevalóval című festmény stílusában", vagy "mesterséges intelligenciát az 1990-es évek technikájával kutató plüssmackók a víz alatt" további trükkökre is képes az algoritmus. A DALL-E helyettesíteni tudja az adott kép egy kiválasztott részét új részlettel, szintén szöveges utasítások alapján.
A fejlesztők által adott példa szerint például, ha egy fotónkon mosatlan edények maradtak egy asztalon, azt a mesterséges intelligencia képes eltüntetni, vagy mondjuk egy virágokkal teli vázára cserélni. Mindeközben ráadásul figyelembe veszi a jelenetben a fényeket, illetve a különböző anyagokat és a vizuális stílust is, ha nem egy realisztikus képről van szó. Végül, a harmadik leprogramozott módban egy betöltött képből készít több variációt a DALL-E 2.
Az OpenAI-nál dolgozó alkotók egyébként tisztában vannak azzal is, hogyan lehetne visszaélni egy ilyen technológiával, ezért különböző korlátozásokat építettek a rendszerbe. Egyfelől a programot egyelőre nem adták ki, csak náluk futtatható zárt környezetben, a felhasználókat pedig ők maguk hívják meg, a jelentkezők szűrését követően. Ezen felül DALL-E-t nem tanították meg erőszakos, felnőtt, vagy épp politikai tartalmak, vagy mondjuk ismert emberek arcának realisztikus újraalkotására sem.
Emellett bizonyos szavakat az MI-nek adható utasítások közül is kitiltottak, illetve az eredményeket egyelőre emberi moderátorok is szűrik, nehogy valamilyen ártalmas kép készüljön a program segítségével. Ez persze a jövőben nem maradhat így, de az alkotók számára DALL-E használatának kiterjesztésénél sokkal fontosabb a biztonság. A Mesterséges intelligencia eredményeiről egyébként meggyőződhettek a projektet bemutató, részben interaktív weboldalon.