November végén lesz egy éve, hogy az OpenAI bombát robbantott a ChatGPT szöveggenerátorral, elindítva a generatív mesterséges intelligencia körüli versengést a techiparban. A cég azóta megalkotta a szolgáltatás különböző előnyöket kínáló előfizetős verzióját, valamint elkészült a mobilos kliensekkel is, a munkának azonban messze nincs vége, további fejlesztések hivatottak a címlapokon tartani a chatbotot.
Ennek jegyében az OpenAI nemrég egy blogposztban jelentette be, hogy a ChatGPT immáron a hang- és a képalapú parancsokból is ért, sőt, maga is megtanult beszélni.
Ami a hangparancsokat illeti, itt ugyanúgy működik a kommunikáció, mint a szintén a GPT nyelvi modellre épülő Bing Chatnél, vagy a Sirinél: mikrofon segítségével diktáljuk be a mondanivalónkat, a chatbot pedig szöveggé alakítja azt. A mobilos alkalmazásokba (iOS, Android) érkező funkció a következő két hétben kerül bevezetésre, ám első körben csak a fizetős felhasználók élvezhetik, a többiek pedig valamikor később kapják meg.
A beszéd funkciónak köszönhetően a platform hanggal is képes válaszolni, amihez egy új text-to-speech eljárást alkalmaznak, illetve az OpenAI profi szinkronszínészeket is bevont a fejlesztésbe, hogy minél élethűbb hatást keltsen az 5 kiválasztható hang. A cég emellett a Spotify-jal is együtt dolgozik egy olyan megoldáson, amely az algoritmusokat bevetve képes az eredeti műsorvezető hangján lefordítani a podcasteket.
A képkeresésnél a chatbe beillesztett fotók segítségével tehetünk fel kérdéseket a mesterséges intelligenciának, melynek során még a ChatGPT saját rajzoló eszközeit is bevethetjük, hogy egyértelműbbé tegyük az utasításokat. A bevezetés itt ugyanúgy zajlik, mint a hangparancsoknál, vagyis 2 héten belül a ChatGPT Plus- és Enterprise-ügyfelekhez, majd "hamarosan" a nagy közönséghez is eljut a kép-alapú bevitel támogatása. Fontos különbség, hogy a fényképek beillesztése a szolgáltatás asztali felületén is megoldható lesz.