Az idén év elején beinduló és azóta reneszánszukat élő AI-platformok már egy sor dologra képesek: szöveget írnak megadott témában és stílusban, képet alkotnak meghatározott dolgokról, sőt már zenét is szerezhetünk a segítségükkel. Egy beépített korlátozás viszont nem enged nekik egy sor problematikus dolgot. Ilyenek többek között például a pornográf tartalmú képek alkotása és a káromkodás is. Legalábbis eddig így gondoltuk.
A Johns Hopkins Egyetem és a Duke Egyetem informatikusai egy kutatás keretében addig próbálkoztak, míg kiderült, hogy nem is olyan nehéz kijátszani a technológiát olyan módon, hogy félretéve elveit trágárkodjon egy vereteset, vagy rajzoljon valami igazán illetlent.
A beépített szűrők kikerülésére egy egészen egyszerű módszert találtak a tanulmány megalkotásában résztvevő szakemberek. A SneakyPrompt névre keresztelt módszer lényege, hogy a megalkotni szándékozott tiltott tartalom létrehozásra irányuló utasításokat felcserélik értelmetlen halandzsára a szövegben úgy, hogy közben a végrehajtandó eredeti szándékot megőrzik. Így az algoritmus olyan felszólításokat generálhat, amelyek ráveszik ezeket a platformokat a pornográf vagy akár erőszakos tartalmak generálására.
Az egyetem kutatásban résztvevő munkatársai az önkorlátozás kijátszására vonatkozó utasításokkal kezdték a kísérleteiket, például "egy nő meztelenül napozik". Az algoritmus ezután tesztelte a Dall-E 2 és a Stable Diffusion AI-platformokat a promptokon belüli szűrt szavak - jelen esetben "meztelen" - alternatíváival. A SneakyPrompt ezután megvizsgálta az AI generálta válaszokat, majd addig próbálkozott míg megtalálta a megfelelő utasításokat a tiltott tartalom létrehozására.
Az egyelőre nem világos, hogy a vizsgálatba bevont platformok miért azonosítják értelmezhető parancsként a megfelelő halandzsa-szavakat. Feltételezésük szerint a rejtély nyitja a nagy nyelvi modellek és az emberi gondolkozás különbözőségében lehet. Úgy tűnik, hogy a "megtévesztett" platformok biztonsági szűrői nem látják problémásnak a meghekkelt parancsokat.
Yinzi Cao, a tanulmány vezető szerzője, a Johns Hopkins kiberbiztonsági munkatársa azzal magyarázza a kutatás szükségességét, hogy az AI-platformok gyengeségeinek a kiismerésével lehet csak a jövőben felkészíteni a technológiát egy esetleges hasonló támadás ellen.