Két hete egy csapat ukrán és orosz programozó azzal sokkolta a közvéleményt, hogy egy általuk írt program a világon elsőként átment a híres Turing-teszten. A tesztet egy brit komputertudós, Adam Turing találta ki, a lényege, hogy egy számítógépnek egy kérdezz-felelek során el kell hitetnie vallatói legalább 30 százalékával, hogy maga is ember. A lelkes beszámolók szerint ez most sikerült; a sajtó forradalmi áttörést emleget. De vajon igazuk van-e a hozsannázó újságíróknak? És ha igen, mit jelent ez a mesterséges intelligencia (MI) kutatás szempontjából?
A Turing-tesztet sokan a gépi tanulással kapcsolatos kutatás egyik alapvető próbakövének tartják. Turing úgy vélte, ha egy számítógépnek sikerül átmennie a teszten, új korba lépünk, amelyben a szilíciumagyak már közel olyan kapacitással és képességekkel rendelkeznek, mint az emberi elme. Igen ám, csakhogy a tudós az ötvenes években állította össze a tesztet, így annak feltételrendszere és megállapításai ma már nem feltétlenül állják meg a helyüket. Arról nem is beszélve, hogy a Turing-tesztgyőztesnek kikiáltott chatbot teljesítménye közel sem olyan eget rengető, mint gondolnánk.
Egy jó chatbot meg egy kis szerencse
A 2014-es „Nagy Turing-tesztet” a névadó halálának hatvanadik évfordulója alkalmából rendezték meg. A zsűriben a szakemberek mellett számos ünnepelt celeb is ült, köztük Robert Llewellyn színész, a Red Dwarf című brit szitkom sztárja. A győztes egy Eugene Goostman nevű program lett, amelynek a harminc kérdezőből tízet sikerült meggyőznie arról, hogy valódi ember. Goostman néhány komputermérnök szellemei gyermeke, fejlesztését az orosz Vlagyimir Veszelov és az ukrán Eugene Demecsenko irányították.
Demecsenkóék a szabályok biztosította keretek között minden trükköt bevetettek annak érdekében, hogy chatbotjuk átcsússzon a teszten. Ez volt az oka annak is, hogy „Gostmannak” egy 13 éves ukrán kisfiút kellett megszemélyesítenie, akitől nyilván a való életben sem lenne elvárható, hogy minden lehetséges kérdésre ékes angolsággal feleljen. Ráadásul még így is csak a bírák 30 százalékát sikerült megtévesztenie (a közmegegyezés szerint éppen ennyi kell a Turing-teszt teljesítéséhez, a szerk.), amely teljesítmény – ahogy a Wired is írta – nem aratott osztatlan elismerést a vezető MI-szakértők körében.
„Nincs ebben semmi lenyűgöző – írta az internetes lap kérdésére válaszolva Joshua Tenenbaum, az MIT kognitív számítástechnikával foglalkozó kutatója. – Semmi sem bizonyítja, hogy ahhoz, hogy valaki megfeleljen a követelményeknek, több kellene, mint egy jó chatbot meg egy kis szerencse.”
A bírák 30 százalékának félrevezetése közel sem olyan nehéz feladat, mint gondolnánk. Gostman programozói ugyan azt állítják, hogy eddig még egyetlen szoftver sem tudta megugrani ezt a lécet, de erősen túloznak. Már a hatvanas években építettek olyan chatbotot, amelynek, ha rövid időre is, de sikerült ez a bravúr, 1991-ben pedig a PC Therapist nevű bot tízből öt döntnököt tudott átejteni.
Meghaladtuk
De vajon honnan származik a „30 százalékos szabály”? Valószínű, hogy Alan Turing a tesztet leíró, 1950-es dolgozatának sajátos (félre)értelmezéséből. „Úgy hiszem, nagyjából ötven éven belül lépesek leszünk úgy programozni a komputereket... hogy elég ügyesek legyenek az utánzásos játékban ahhoz, hogy egy átlagos kérdezőnek ne legyen 70 százaléknál nagyobb esélye arra, hogy ötperces beszélgetés után helyesen azonosítsa őket” – írta a tudós (.pdf).
Ha figyelmesen elolvassuk a fenti mondatot, kiderül, a Turing-teszt atyja nem azt írta, hogy a 30 százalékos küszöb átlépése már önmagában azt jelentené, hogy a számítógépek „intelligenssé váltak”; csupán megsaccolta, hol tart majd a fejlődésük a kétezres évek elején.
A legtöbb szakértő szerint a Turing-teszt a mai körülmények között már nem alkalmas az MI-k teljesítményének felmérésére, hiszen 65 évvel ezelőtt született, egy olyan időszakban, amikor még magáról az intelligenciáról is jóval kevesebbet tudtunk – legyen az emberi vagy gépi – mint manapság. Napjainkban már számos olyan program van, amelyek – mint a Netflix ajánló-algoritmusa, a Google autonóm autójának szoftvere, vagy az Apple Siri hangasszisztense – gyakran kimondottan intelligensnek tűnő viselkedést mutatnak. Csakhogy ezeket specifikus feladatok elvégzésére tervezték – ellentétben a Turing által megálmodott, univerzálisan okos géptől, amely épp olyan ügyes a napirendünk megtervezésében, mint mondjuk a latin-tanulásban.
Új teszt kell
Nem véletlen, hogy Gary Marcus, az NYU kognitív tudományokkal foglalkozó szakembere szerint ideje lenne kidolgozni a Turing-teszt frissített, 21. századi változatát. Marcus a New Yorker Elements blogján megjelent cikkében úgy fogalmazott, hogy egy igazán intelligens számítógépnek képesnek kellene lennie arra, hogy bármilyen tetszőleges TV-műsor vagy YouTube-videó megnézése után válaszolni tudjon az annak tartalmával kapcsolatos kérdésekre.
„A Goostmanhez hasonló csevegőrobotok képesek röviden elbeszélgetni a TV-műsorokról, de csak akkor, ha folyamatosan blöffölnek – írta a kutató. – De ma még egyetlen létező program – hívják akár Watsonnak, Goostmannek vagy Sirinek – sem tudja megtenni, amire bármelyik okos tinédzser képes: megnézni a Simpson család egyik epizódját, és megmondani, mikor kell nevetnünk.”