Miért kellene több szó a gépnek, mint egy gyereknek? – Dr. Berend Gábor nyelvi modellek hatékonyabb tanítására nyert Bolyai-ösztöndíjat

Egyetem

Miért kellene a világ minden szövege a neurális nyelvi modellek tanításához, amikor egy gyermek jóval kisebb szómennyiségből hatékonyan megtanulja anyanyelvét? A nagy AI cégek nyelvi modelljeinek adatpazarlása és ezer tonnákban mérhető CO2 kibocsátása helyett a Szegedi Tudományegyetem Informatikai Intézetének Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszékén a nyelvi modellek létrehozásának új irányait kutatják.

Dr. Berend Gábor egyetemi docens az MTA Bolyai kutatói ösztöndíját nyerte el egy olyan alternatív módszerre, amellyel az emberi gondolkodásból kiindulva készítenek a nagy AI cégekénél kisebb méretű, hozzáférhetőbb és jóval hatékonyabb nyelvi modelleket. Az SZTE mesterségesintelligencia-kutatója a hatékonyságot ösztönző nemzetközi Baby LM Challenge 2023-as kiírásában 120 beküldött modellből második helyet ért el. Eljárásával a jelenlegi nagy nyelvi modelleknél jóval kevesebb idő alatt, több százezerszer kevesebb szöveggel tanítható meg egy modell.

Az SZTE kutatója szerint a modellek tanítására elérhető szöveges adatok kimerültek, most a minőségre kell, hogy áttevődjön a kutatás hangsúlya.

– Lehet, hogy nem trilliárdnyi szóból álló adatkészletek kellenek már a modellek tanításához, hanem egy okosan megválasztott szövegmennyiség, amelyet hatékonyan használunk fel. A nyelvi modellek emberi képesség szimulálására törekszenek. A nemzetközi AI-cégek révén megismert nagy nyelvi modellek mégis figyelmen kívül hagyják az emberi megértés sajátosságait. Emiatt drágán, rendkívüli adatpazarlással és alacsony hatékonysággal tudják elérni az emberi megértés szimulációját. Mi úgy gondoljuk, az emberi gondolkodástól inspirált módszerek hozzák el a gazdaságosabb és széles körben elérhető nyelvi modellek idejét – hangsúlyozta Dr. Berend Gábor.

Az SZTE weboldalán megjelent interjújában az MI-kutató elmondta, a nyelvi modellek tanítása rendszerint úgy történik, hogy a gépi tanulást végző algoritmusnak 100 milliárdos mennyiségben adnak be mondatokat, és ezeknek bizonyos mennyiségű szavát kitakarják. A nyelvi modell célja, hogy képes legyen megállapítani, a kitakart szó helyén pontosan milyen szó állhatott.

– Tegyük fel, hogy azzal a mondattal találkozik, hogy „Reggel ettem egy finom palacsintát”. Itt a palacsinta szót takarjuk ki, ezt kell kikövetkeztetnie a modellnek. A hagyományos előtanításnál elvileg annál kevesebb a hiba, minél nagyobb valószínűséget tulajdonít a palacsinta szónak és pontosan annak. Csakhogy ezen a ponton törékeny lesz a modell. Emberi felfogással ugyanis érezzük, hogy sok minden tud még finom reggeli lenni. A klasszikus előtanítás célfüggvénye számára az omlett szó mégis éppen olyan valószínűtlen, mint ha a csavarhúzó kerülne oda. Itt tetten érhető, hogy az egyes tanulási lépései mennyire nem tükrözik az emberi gondolkodásmódot. A mi módszerünk viszont arra törekszik, hogy előtanításkor a maszkolt palacsinta szó helyére a „reggelikor elfogyasztható étel” fogalmi kategória kerüljön. Az eljárásunk során egy segédmodellel előbb ezeket a szavakhoz kötődő rejtett fogalmi kategóriákat szeretnénk automatikusan felállítani.

Dr. Berend Gábor szerint a szövegek számítógépes megjelenítését vektoroknak, hosszú számsoroknak lehet elképzelni. A nagy AI cégek nyelvi modelljeinek gépi tanulása azt feltételezi, hogy minden számnak van nullától eltérő értéke. Ez azonban erőforráspazarló eljárás; mintha az emberek minden egyes dologról, minden egyes létező tulajdonsága szempontjából véleményt alkotnának:

– Olyan ez, mintha az ajtókilincs ízletességéről is lenne véleményünk. Sokkal közelebb áll az emberi gondolkodáshoz, ha a vektorok számsorai ilyen esetben nullák, mert az ajtókilincs ízletességéről nincs értelme véleményt formálni. Az így kapott mintázatban egy dologra általában nagyon kevés tulajdonság teljesül, a tulajdonságok pedig általában nagyon kevés dologhoz társulnak – mondta.

A mesterségesintelligencia-kutató szerint a nagy nyelvi modellek csak igen erőforráséhes és hatalmas mennyiségű tanítószöveget igénylő tanítás után tűnnek úgy, mintha rendelkeznének az emberi gondolkodás hatékonyságával.

– A legújabb Llama 3.1 modellek tanítása 13 trilliárd szövegszavon történt. A legnagyobb, 405 milliárd paraméterrel rendelkező modelljük létrehozása körülbelül 30 millió GPU-óra számítási kapacitással és 9000 tonna CO2 kibocsátással járt. A zárt modellek méreteit ráadásul nem is ismerjük. Mi a Bolyai kutatói ösztöndíj keretében azt tűztük ki, hogy a modelljeink mintahatékonyan tanulva legyenek eredményesek, és a problémát ne drága erőforrásokból oldjuk meg – hangsúlyozta az SZTE kutatója.

Dr. Berend Gábor 2020-ban publikálta módszerét, és ezzel évekkel megelőzte az Open AI-t és a Google-t, amelyek 2024 nyarán szellőztették meg hasonló  fejlesztésüket.

A teljes interjú itt elérhető el.

(SZTE)

Fotók: Kovács-Jerney Ádám