A mesterséges intelligenciát sokféle olyan szolgáltatásba építik be, amelyet a mindennapokban is használunk - ilyen a mobilos vagy különálló okosasszisztens, az útvonaltervező vagy a fordító, és persze régóta próbálnak többen is olyan algoritmusokat létrehozni, amelyek a képfelismerésben segítenek.
Láthattunk már ilyet például különféle gyártók mobilfotós megoldásaiban, a Facebook képellenőrző rutinjában vagy a Google online segédjében, de azért ezek egyike sem érte még el azt a szintet, hogy szó szerint vakon rábízhatnánk magunkat.
A Redditet és különféle közösségi oldalakat bőven ellátják vicces alapanyaggal azok a screenshotok, ahol például egy bálnát embernek néz a mesterséges intelligencia, vagy a kaktuszra mondja azt, hogy ejnye, ez itt bizony egy olyan férfinyúlvány, aminek semmi keresnivalója nincs az interneten.
A Google 2016-ban már azt állította, hogy saját megoldása 94 százalékos pontossággal azonosít be mindent egy képet elemezve, bár ennek gyakorlati felhasználására még nem láttunk teljesen megnyugtató példát.
A Microsoft mindenesetre friss közleményében messzebbre ment: a redmondi vállalat szerint saját MI-rendszere még az emberi látásnál és azonosításnál is jobban képes felismerni, mi van a képeken. Ez pedig pontosan 50 százalékkal jobb, mint az a képfelismerő rendszer, amit 2015 óta használnak.
Az új módszert ráadásul nem tartja meg magának a cég, hanem elérhetővé is teszi az Azure Cognitive Services moduljában, tehát bárki beépítheti az Azure alapú appjaiba. Ezen kívül máris használható a Seeing AI megoldásban, amelynek segítségével a vakok és látássérültek tudják jobban feldolgozni az őket körülvevő világot.
A segéd szintén elérhető a Microsoft 365 egyes alkalmazásaiban, például PowerPoint prezentáció készítésekor egy beillesztett képnek automatikus képaláírást tud felajánlani Windoiws és Mac alatt, valamint a weben (persze egyelőre angolul). Hamarosan a Word és az Outlook felületébe is beépül az ígéretek szerint.
Jól látható, hogy egyes esetekben tényleg részletekbe menően pontos az algoritmus, ahol például korábban annyit vett észre, hogy "egy városi utca látképe", ott már pontosít "villamos a városi utcán"-ra, és a "közeli fotó egy macskáról" felirat helyett is "közeli fotó egy behunyt szemű macskáról" jelenik meg.
Eric Boyd, az Azure AI alelnöke szerint nem csak abban kell fejlődni egy ilyen képelemző technológiánál, hogy részletesebben felismerjen dolgokat, hanem képes legyen ezek relációját is felfogni. Például a fenti példák egyikében érzékelje azt, hogy a macskához tartozik a szem, és fontos az is, hogy csukva van. A megoldás elsődleges célja az, hogy a látássérültek számára olyan hellyé változtassa az internetet, amelyet képesek egy valósághű gépi intelligencia "szemével" látni.
A jelenlegi technológia sem áll meg ennyinél, folyamatosan tanítják különféle képek elemzésével és pontosításával, majd annak ellenőrzésével, hogy a tanultakat milyen hatékonyan tudja alkalmazni olyan képeken, amelyeket akkor mutatnak meg neki először.