Az Nvidia bemutatta legújabb generatív audio mesterséges intelligencia modelljét, a Fugattót, ami a hangok, zenék és emberi hangok előállításának egy új dimenzióját nyitja meg - legalábbis az ígéretek szerint. Ez az innovatív technológia egyszerű szöveges vagy hangalapú utasításokra építve képes zenei részleteket alkotni, meglévő számokat módosítani, valamint teljesen új, korábban soha nem hallott hangokat generálni. A Fugatto lehetőséget kínál arra, hogy a zenei producerek gyorsan prototípusokat készítsenek, új ötleteket próbáljanak ki, vagy éppen meglévő zenékhez adjanak különleges rétegeket és effekteket.
Az Nvidia célja az volt, hogy a Fugatto segítségével az emberekhez hasonló módon értelmezze és alkossa meg a hangokat, ami egy újfajta művészi szabadságot nyújt a felhasználóknak. Rafael Valle, a kutatást vezető szakember szerint ez a modell az audioszintézis terén a jövőbeni felügyelet nélküli, többfunkciós tanulás alapját képezheti. Az audiotechnológia e jelentős előrelépése a zenén túl reklámkampányok hangjainak lokalizálásában, videojátékok dinamikus zenei elemeinek megtervezésében és egyedi hanghatások létrehozásában is forradalmi lehetőségeket kínál.
A Fugatto mögött 2,5 milliárd paraméter és a csúcstechnológiát képviselő 32 H100 GPU-n végzett oktatás áll. Ez a modell az úgynevezett ComposableART technikát alkalmazza, amely lehetővé teszi, hogy az oktatás során tanult elemeket kreatív módon kombinálják. Rohan Badlani, az Nvidia egyik kutatója elmondta, hogy a Fugatto eredményei gyakran meglepték, és egyfajta művészi élményt nyújtottak számára, annak ellenére, hogy ő maga nem művész, hanem számítástechnikai szakember.
Ez az innováció egy gyorsan fejlődő technológiai térben született, ahol más vállalatok, például a Stability AI és a Google, szintén hasonló rendszerekkel kísérleteznek. Az Nvidia újítása azonban különösen hangsúlyos, mivel nemcsak technológiai határokat feszeget, hanem a kreatív iparágakban dolgozók számára is új lehetőségeket nyit meg. A Fugatto által kínált képességek újradefiniálhatják, hogyan közelítünk a hangok és zenék világához, miközben lehetőséget adnak arra, hogy a technológia segítségével mindenki egy kicsit művésszé válhasson.