A ChatGPT mögött álló OpenAI múlt pénteken mutatta be legújabb nagy nyelvi modelljét, az o3-at, amely a vállalat elmondása alapján sokkal fejlettebb, mint az o1 vagy a korábbi modellek. A cég szerint az előrelépés egy új biztonsági paradigma alkalmazásának is köszönhető, amelyet kifejezetten az o-sorozatú modellek képzéséhez dolgoztak ki.
Az ezek mögött álló technológia lényegében biztosítja, hogy a vállalat érvelő AI-modelljei összhangban maradjanak a fejlesztők által meghatározott értékekkel és irányelvekkel. Az OpenAI a módszert annak elérésére használta, hogy az o1 és o3 modellek a felhasználói parancsok feldolgozása során is "gondolkodjanak" a biztonsági kérdésekről, ezzel minimalizálva a nem kívánatos válaszokat.
A vállalat kutatásai szerint a módszer jelentősen javította az o1 és o3 általános igazodását a vállalat biztonsági elveihez. Ez a gyakorlatban azt eredményezte, hogy a modellek ritkábban válaszoltak olyan kérdésekre, amelyeket az OpenAI nem ítélt biztonságosnak, miközben hatékonyabbá váltak a "jóindulatú" kérdések kezelésében.
Az o-sorozatú modellek a kérdések feldolgozása során belsőleg "mérlegelik", hogyan adhatnak biztonságos választ. Ez a folyamat nagyon hasonló ahhoz, ahogy más modellek kisebb lépésekre bontják a komplex parancsokat, mielőtt válaszolnának.
A mesterséges intelligencia biztonsága számos szempontot foglal magában, azonban az OpenAI jelen esetben főként arra összpontosított, hogy megakadályozza a modellek válaszadási készségeinek kihasználását nem biztonságos célokra. Ide tartozhat például, ha valaki bombakészítési útmutatást, kábítószer-beszerzési tanácsot vagy bűncselekmények elkövetésére vonatkozó segítséget kér az adott chatbottól. Az OpenAI célja, hogy ilyen kérések esetén a modellek megtagadják a választ.