Az OpenAI legújabb csúcsteljesítménye a Sora, egy olyan videógenerátor, amely képes élethű videókat létrehozni pusztán szöveges parancsok alapján. Ez a fejlesztés véget vethet az eddig inkább abszurd eredményeket hozó videógenerátorok korszakának, és beléphetünk az élethű és fiktív álrealitás korába. Azonban a Sora nem csupán egy újabb fejlett videógenerátor, hanem egy ugródeszka is, amely elvezethet az emberivel egyenértékű általános mesterséges intelligenciához.

Az elmúlt évben még mulattunk és megdöbbentünk a mesterséges intelligencia által generált videókon, de úgy tűnik, ez a korszak gyorsan véget ért – és a fejlődés sebessége meglepte még a szakértőket is. Az MI fejlődésének irányát és ütemét nehéz megjósolni, de egy dolog biztos: mostanra világosan látszik, hogy nemrégiben egy lufi volt a dolog, ami csak a befektetőket vonzotta. Sőt, a terület fejlődése még a kutatókat is meglepte.

Az, hogy túl sokat várunk-e az MI-tól, indokoltan félünk-e tőle, vagy éppen nem vagyunk tisztában a potenciális veszélyekkel, mind olyan kérdések, amelyek megosztják a szakértőket. De ami a szöveg- és képgenerálás után következik, az már a videógenerálás, és valóban működik. Az OpenAI most bemutatta a Sorát.

A Sora egy fejlett mesterséges intelligencia-modell, amely valósághű és fiktív videojeleneteket hoz létre szöveges utasításokból, és célja a mozgásban lévő fizikai világ szimulációja. A Sorát kiemeli a sorból az, hogy akár egy perces videókat is készít, ami jóval több, mint a korábbi pár másodperces jelenetek, és mindezt kiváló képminőségben és a felhasználói utasításoknak megfelelően teszi. A Sora jelenleg szakértői csapatok értékelése alatt áll potenciális kockázatok szempontjából, és kreatív szakemberek dolgoznak rajta, hogy javaslatokat tegyenek a hatékonyság növelése érdekében.

A Sora technológiája lehetővé teszi bonyolult jelenetek generálását több szereplővel, változatos mozgásokkal és részletes hátterekkel, miközben megőrzi a nyelv és a fizikai világ mély megértését. Annak ellenére, hogy lenyűgöző képességekkel rendelkezik, a Sora még mindig küzd bizonyos korlátokkal, mint például pontatlanságok a bonyolult fizika szimulációk során vagy a térbeli részletek és az idő múlásával kapcsolatos eseménysorozatok tekintetében.

Az OpenAI azonban számos intézkedést hajt végre a Sora integrálása előtt a termékeikbe. A biztonsági szakértők, a „red team” tagjai különféle támadási módszereket és próbálkozásokat alkalmaznak a rendszer tesztelésére, és azon dolgoznak, hogy felfedezzék a potenciális biztonsági réseket és sebezhetőségeket, mintha valódi támadók lennének. Emellett folyik a félrevezető tartalom észlelésére szolgáló eszközök fejlesztése is, valamint a DALL-E 3 biztonsági protokolljainak alkalmazása. Ezek a lépések a félretájékoztatás, a gyűlöletkeltő tartalom és az elfogultság problémáinak mérséklését célozzák.

A modell diffúziós technikákat alkalmaz, amelyek a statikus zajból indulnak ki, majd ismétlődően finomítják azokat, hogy végül tiszta videókat hozzanak létre. A Sora a transzformátor architektúrát használja a méretezéshez, és az adatfoltok gyűjteményeként kezeli a videókat és a képeket, lehetővé téve a vizuális adatok széles skálájának betanítását. Az előző DALL-E és GPT modelleken alapuló újrafeliratozási technikák segítik a szöveges utasítások pontosabb betartását, és lehetővé teszik az állóképek animálását vagy a videók kiterjesztését részletességben.

Az OpenAI azonban nem csupán videogenerátornak szánja a Sorát, hanem azt reméli, hogy ez az újabb mérföldkő hozzájárulhat az általános mesterséges intelligencia felé vezető úton. Ahogy a cég korábbi modelljei is, úgy a Sora is a további modellek alapjául szolgálhat, amelyek képesek megérteni és szimulálni a valódi világot, ami az emberi intelligencia egyenértékű AGI talán legfontosabb jellemzője.