A Google mesterséges intelligenciával foglalkozó DeepMind részlege és az Oxfordi Egyetem mesterséges intelligenciát használtak fel egy-egy szoftverben, amelyek a szájról olvasásra szakosodtak.
A Google szoftvere rekordot döntött, ugyanis nagyobb arányban ismeri fel a szavakat, mint az erre szakosodott emberek. Míg az emberek az adott jelenetben 12,4 százalékos arányban ismertek fel egy szót, addig a mesterséges intelligencia 46,8 százalékos arányban. Ehhez mindenesetre több mint 5000 órányi BBC tévéműsort nézett a neurális hálózat.
Az Oxfordi Egyetem később tovább ment, a tesztek során a LipNet szoftver 93,4 százalékos pontosságot ért el, szemben a szakemberek 52,3 százalékos eredményével. A LipNet azonban egy speciális felvételen volt tesztelve (mindössze 51 egyedi szóval), míg a DeepMind hallgatta, figyelte és gyakorolta a sokkal nagyobb kihívást jelentő, előre nem megírt vagy feliratozott BBC politikai műsorait (ezekben 17 500 egyedi szó volt).
A DeepMind szakemberei szerint a szoftverük segíthet a hallássérülteknek, feliratozhatja a némafilmeket, de kamerán keresztül is lehetővé teheti, hogy a digitális asszisztensek felismerjék, amit mondunk.
Vajon a közterületeken lévő kamerák ezután mindent látnak és hallanak? Ettől tart sok ember. A szakértők szerint nem ugyanaz a nagyfelbontású, jól megvilágított tévéadásból dolgozni, mint az alacsony framerátájú, mosott CCTV-felvétel. De talán néhány év múlva már ez sem lesz akadály.