A gépi tanuláson alapuló generatív mesterséges intelligencia lehetővé teszi, hogy az internetről összegyűjtött óriási mennyiségű adatból ellesett minták alapján az algoritmusok változatos, új tartalmakat állítsanak elő. A technológia olyan lenyűgöző szolgáltatásokat hozott el nekünk, mint a gyakorlatilag bármilyen szöveget legyártó ChatGPT, vagy a megtévesztően élethű képeket készítő Midjourney, most pedig a robotikában is új korszakot nyithat.
A Google ugyanis előállt egy modellel, amely ötvözi a gépi tanulást a gépek vezérlésével, jóval gördülékenyebbé téve az utasítások feldolgozását.
A Robotics Tranformer-2, vagyis RT-2 néven futó megoldás egy ún. vision-language-action (VLA) modell, amelyet az internetről begyűjtött szövegek és képek segítségével képeztek ki rá, hogy az utasítások alapján műveleteket hajtson végre, vagyis lényegében egyfajta fordítóként működik az ember és a robot között. A Google egy egyszerű példán keresztül illusztrálja a kategóriateremtő fejlesztés jelentőségét.
"Ha például azt akartuk, hogy a korábbi rendszerek képesek legyenek kidobni a szemetet, akkor kifejezetten be kellett tanítani őket a szemét azonosítására, valamint a felvételére és a kidobására. Mivel az RT-2 képes átvenni e tudást egy nagy mennyiségű webes adathalmazból, már eleve van elképzelése arról, hogy mi a szemét, és célzott képzés nélkül is azonosítani tudja azt. Továbbá arról is van elképzelése, hogy hogyan kell kidobni a szemetet, még akkor is, ha erre a műveletre még nem tanították be. És gondoljunk csak a szemét absztrakt természetére - ami korábban egy zacskó chips vagy egy banánhéj volt, az azután válik szemétté, hogy megettük. Az RT-2 képes ezt a látás-nyelvi képzési adatokból értelmezni, és elvégezni a feladatot."
- írja a projektért felelős Google Deep Mind robotikai vezetője, Vincent Vanhoucke az újdonságról szóló blogposztban. A cég szerint a Robotics Transformer-2 végső soron lehetővé teszi, hogy a robotok a modellen keresztül az emberekhez hasonlóan tanuljanak, elsajátítva az új koncepciókat és szituációkat.
Habár a gépi tanuláson alapuló modell rendkívül ígéretes, Vanhoucke nem mulaszt el figyelmeztetni, hogy még rengeteg munka kell ahhoz, hogy a robotok emberi környezetben (értsd: nem laboratóriumi vagy ipari) is funkcionáljanak. A tudós mindazonáltal úgy gondolja, hogy még ezzel együtt is "csak egy karnyújtásnyira" vagyunk a robotika izgalmas, MI-vel támogatott jövőjétől.