Dr. Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, az SZTE Bolyai Intézet Alkalmazott Matematikai Konferenciáján beszélt a nagy nyelvi modellek és az emberi világmodell közötti különbségről. A HUN REN Nyelvtudományi Kutatóközpont főigazgatója a Szegedi Tudományegyetem portáljának adott interjújában elmondta, hogy az általuk fejlesztett első magyar nyelvi modell, a PULI, 50 milliárd magyar szavas szövegkorpuszával jobban modellezi a magyar nyelvet, mint nagy nemzetközi társai.
Félrevezető azt hinni, hogy a nagy nyelvi modellek, a Gemini, a Copilot vagy a ChatGPT emberi tudással rendelkeznek a világról. Ezek a rendszerek valójában egy szövegekből felépített nyelvi világot ismernek, ami nem azonos a fejünkben lévő világmodellel.
A nagy nyelvi modellek algoritmusai hatalmas szövegkészletekből mélytanulás útján állapítják meg, hogy egy szó környezetében milyen szavak következhetnek; tudni azonban csak azt tudhatják, amit a szövegekből tanultak. A számítógépes nyelvész szerint a modellek tanulása alapjául szolgáló szövegkorpuszokban a laposföldhívők szövegei is szerepelnek, ezért fennáll az esélye, hogy a modell azt fogja mondani a Földről, hogy lapos. Másfelől attól is tartani lehet, hogy a modell a szövegekből okos és logikus dolgokat tanul ugyan, de úgy kombinálja őket össze, ahogyan a mi világképünk azt nem engedné.
Prószéky Gábor szerint a nyelvi modell működését nem szabályozza semmilyen világkép, ezért hiába tanítják jobban, vagy újabb szövegekkel, mindig előállhat annak a lehetősége, hogy a létező szövegek összekombinálásából valótlan állítás következik.
A probléma kezelésére a HUN REN Nyelvtudományi Kutatóközpontban megalkotott első magyar nyelvi modell, a PULI kutatói azon dolgoznak, hogy a rendszer a gépi tanulás közben egyes tényeket eleve hitelesnek tekintsen, és e tények eltorzítása nélkül adja meg válaszait.
Prószéky Gábor hangsúlyozta, hogy ezek a modellek nem rendelkeznek saját szándékkal vagy érzelmi reakcióval, ezért értelmezéseik nem lehetnek egyéniek, embert imitáló kommunikációjuk pedig külsőleg megtanult lesz, a rendszer valójában nem tud spontán viselkedést előállítani.
A PULI modell a magyar nyelv jobb megértésére alapozza versenyképességét; a ChatGPT ugyanis csupán 130 millió szavas magyar szövegből tanult, míg a PULI szövegkorpusza 50 milliárdos. A nyelvtani szabályokat a ChatGPT és a többi nagy nyelvi modell is jól tudja, de a PULI a magyar kulturális tartalom ismereteiben is megbízható. Érdemben ismeri például a Toldi-trilógia részleteit, össze tudja hasonlítani Petőfi és Arany elbeszélő költeményeit és beszélni tudunk vele a Himnusz negyedik versszakáról.
Prószéky Gábor az interjúban beszélt arról is, hogy a PULI szerepet kap egy készülő európai nyelvi modellben, amely az ALT-EDIC konzorcium keretében jön létre. Ez a modell minden európai nyelvet nagy mennyiségű adat alapján fog támogatni, így a magyar is benne lesz.
Interjújában Prószéky Gábor nem zárta ki, hogy a történeti magyar szövegek felhasználásával a PULI idővel olyan válaszokat is fog tudni adni, mintha a régi kor embere tenné. Mivel a kutatócsoport már hanggal is foglalkozik, akár az is elképzelhető, hogy a nyelvi modell egyszer majd megszólal a török hódoltság idején használt magyar nyelven, hogy közelebb hozza a mai emberekhez, hogyan hangozhattak Dobó István szavai az egri várvédők előtt.