A Microsoft korán felismerte a novemberben megjelent ChatGPT-ben rejlő lehetőségeket, és gyorsan bele is tolt 10 milliárd dollárt a szolgáltatás mögött álló OpenAI-ba. Ennek köszönhetően már a Bing kereső is megkapta a GPT nevű nagy nyelvi modellen (Large Language Model, LLM) alapuló csevegés funkciót, a redmondiak azonban már a következő lépésen gondolkodnak.
A vállalat mérnökei nemrég egy tanulmányban leplezték le a Kosmos-1 néven futó mesterséges intelligenciás modelljüket, amely mellett még az egyetemi vizsgákon brillírozó ChatGPT képességei is eltörpülnek.
A Kosmos-1 egy úgynevezett multimodális nagy nyelvi modell (Multimodal Large Language Modell, MLLM), ami a gyakorlatban azt jelenti, hogy a kizárólag szövegekkel dolgozó LLM-ekkel ellentétben akár fényképes, videós és hangalapú inputokat is kezel. A kutatók szerint az ilyen multimodális technológiák jelenthetik a kulcsot a későbbi, AGI-nak (Artifical General Intelligence) hívott mesterséges intelligenciákhoz, amelyek változatos feladatban lesznek képesek az emberekével megegyező teljesítményt nyújtani.
A Microsoft újdonsága egyelőre fényképek elemzésével, kirakósokkal és IQ-tesztekkel birkózik meg, amiről az alábbi képeket tette közzé a vállalat. A fotókon az látható, hogy a Kosmos helyesen válaszol különböző, vizuális inputok kapcsán feltett kérdésekre, mintha csak egy emberrel beszélgetnénk.
Ennek eléréséhez a kutatók olyan internetes adatbázisokon trenírozták a multimodális modellt, mint a 800 GB-os The Pile, vagy a Common Crawl. Ami a Kosmos működését illeti, a technológia nagyon leegyszerűsítve szöveges bevitellé alakítja a képeket, majd erre reagál. Érdekesség, hogy a Microsoft a Raven's Progressive Reasoning nevű IQ-tesztre is ráeresztette az algoritmust, amit az 26%-os eredménnyel teljesített. Ez elsőre kevésnek tűnhet, vak szerencsével viszont csak 17% lenne elérhető, így a Kosmos egész ígéretesen kezdte a karrierjét.
A teljes kutatás ide kattintva olvasható, később pedig ezen a GitHub oldalon a fejlesztők számára is elérhetővé teszik a technológiát.