Néhány szóból készít elképesztő képeket ez a mesterséges intelligencia

Tóth Ádám

| 2022 április 10. 20:14

A DALL-E 2 mesterséges intelligencia gyorsabban, pontosabban dolgozik, és nagyobb képeket rajzol, mint elődje, ehhez pedig csak néhány szóra van szüksége.

Hirdetés

A mesterséges intelligenciát egy ideje már nem csak arra lehet használni, hogy felismertessük vele, mi szerepel egy képen, hanem akár soha nem létező dolgokat is rendkívül hihető módon rajzoltathatunk meg egy-egy, gépi tanulással létrejött programmal. Míg az Nvidia segítségével készülő GauGAN2 alapvetően realisztikus tájképekre specializálódott, egy másik projekt pedig hihető emberi arcokat gyárt, addig az OpenAI kísérlete, a DALL-E második generációja tényleg majdnem mindent le tud rajzolni.

A szóban forgó MI rendkívül érdekes módszerrel dolgozik, a kiindulási pontot egy teljesen zajos kép adja. Ezt addig tisztítgatja a zajtól és rendezgeti a DALL-E 2 (ami nevét Salvador Dalí neve és a WALL-E ötvözéséből kapta), amíg meg nem jelennek olyan minták, amiket korábbi tanulmányai alapján felismer, és a program szerint megfelel a szavakból álló utasításnak. Ez a modell egyébként kisebb és hatékonyabb az MI-t tervező mérnökök szerint, mint a DALL-E korábbi kiadása, így azt is megengedhetik az üzemeltetők, hogy több megoldást is készítsen az MI ugyanarra a feladatra, amik közül aztán a felhasználó választhatja ki, melyik tetszik neki a legjobban.

Hirdetés

Az olyan váratlan utasítások megvalósításán túl, mint "egy tengeri vidra a Leány gyöngy fülbevalóval című festmény stílusában", vagy "mesterséges intelligenciát az 1990-es évek technikájával kutató plüssmackók a víz alatt" további trükkökre is képes az algoritmus. A DALL-E helyettesíteni tudja az adott kép egy kiválasztott részét új részlettel, szintén szöveges utasítások alapján.

A fejlesztők által adott példa szerint például, ha egy fotónkon mosatlan edények maradtak egy asztalon, azt a mesterséges intelligencia képes eltüntetni, vagy mondjuk egy virágokkal teli vázára cserélni. Mindeközben ráadásul figyelembe veszi a jelenetben a fényeket, illetve a különböző anyagokat és a vizuális stílust is, ha nem egy realisztikus képről van szó. Végül, a harmadik leprogramozott módban egy betöltött képből készít több variációt a DALL-E 2.

Az OpenAI-nál dolgozó alkotók egyébként tisztában vannak azzal is, hogyan lehetne visszaélni egy ilyen technológiával, ezért különböző korlátozásokat építettek a rendszerbe. Egyfelől a programot egyelőre nem adták ki, csak náluk futtatható zárt környezetben, a felhasználókat pedig ők maguk hívják meg, a jelentkezők szűrését követően. Ezen felül DALL-E-t nem tanították meg erőszakos, felnőtt, vagy épp politikai tartalmak, vagy mondjuk ismert emberek arcának realisztikus újraalkotására sem.

Emellett bizonyos szavakat az MI-nek adható utasítások közül is kitiltottak, illetve az eredményeket egyelőre emberi moderátorok is szűrik, nehogy valamilyen ártalmas kép készüljön a program segítségével. Ez persze a jövőben nem maradhat így, de az alkotók számára DALL-E használatának kiterjesztésénél sokkal fontosabb a biztonság. A Mesterséges intelligencia eredményeiről egyébként meggyőződhettek a projektet bemutató, részben interaktív weboldalon.

MSI Vector 16 HX AI teszt – így szép csak igazán a gamerlét Bivalyerős Intel CPU és GeForce RTX 50-es GPU dübörög az új Vector 16-ban, ami nem titkolja el, hogy PC-gamernek lenni milyen jó dolog is.

Hirdetés

Néhány szóból készít elképesztő képeket ez a mesterséges intelligencia

Hirdetés

Verhetetlen áron zsákolhatod be a Windows 11 Prót

Kövess Facebookon!

Hamarosan minden telefonon jelezni kell, hogy meddig bírja az aksija

A Seagate szerint többet ártanak a környezetnek az SSD-k, mint a merevlemezek

Így védekezz az új adathalász-trükk ellen

Hivatalos: itt a megfizethető Nvidia GeForce RTX 5060-as széria

Ingyen adja a Google a Gemini AI prémium csomagját a diákoknak, de nem örökre

Ha új tévét veszel, ezeket a funkciókat mindenképp tudnia kell!