Hódít a mesterséges intelligencia hazánkban is: a vállalatok és a lakosság egyre szélesebb körben használják az MI-t. Jelenleg azonban az alkalmazások többsége nem képes magyar nyelvű utasításokat megérteni vagy információkat elemezni, és amelyik igen, ott sok a pontatlanság. Ezért kellene, hogy az magyarul is hibátlanul működjenek.
A magyar az egyik legnehezebb nyelv a világon, és miután alig többen, mint tízmillióan beszélik, korántsem tekinthető világnyelvnek. Ráadásul más nemzetekkel összehasonlítva a magyaroknak csak töredéke beszél idegen nyelveket. Még szerencse, hogy – miután kinyílt előttük a világ – a fiatalok nyelvtanulási kedve nagyobb, mint a szüleiké, nagyszüleiké, ráadásul a mesterséges intelligenciával működő fordítóprogramok is sokat javítottak ezen a hátrányos helyzeten.
Az új szoftverek, a megnövekedett számítási teljesítmény mellett az is meghatározza a mesterséges intelligencia fejlődési ütemét, hogy az adott nyelven mekkora adatmennyiség áll rendelkezésre. Az életünkbe viharos gyorsasággal beépülő mesterséges intelligencia alapú alkalmazások ezért működnek tökéletesen a nagy világnyelveken, ám a magyar kérdésekre – sajnos – nagyon sok hibás válasz érkezik.
Anyanyelvünk használata – ez, sajnos, érthető – nincs a nemzetközi technológiai cégek fejlesztéseinek középpontjában. Emiatt számunkra különösen fontos, hogy megőrizzük anyanyelvünk gazdagságát és a lehető legnagyobb magyar nyelvű szöveges adatbázis felhasználásával elkészítsük azt a magyar nyelvi modellt, melyik beépülhet a mesterséges intelligencia alapú alkalmazásokba. Minél több lesz a hiteles magyar nyelvű szövegrész, annál pontosabbak és választékosabbak az MI válaszai.
Mi a nagy nyelvi modell? Angolul „large language modell” (rövidítve: LLM), mesterséges intelligencia alapú algoritmus, amit hatalmas mennyiségű szöveges adaton (korpuszon) tanítottak be, és képes megérteni, feldolgozni az ember által beszélt és írt nyelv sajátosságait.
Hazánkban két nagy munka folyik, ami a magyar nyelvi modell kifejlesztésén és tökéletesítésén dolgozik.
- A Nyelvtudományi Intézet munkatársai kifejlesztették a magyar ChatGPT-t, a mesterségesintelligencia-alapú szövegszerkesztő és nyelvelemző szoftvert, ami csevegésre még nem képes ugyan, ám megtalálja a szöveg-összefüggéseket, alkalmas a médiatartalom elemzésre is. A Puli-GPT nevű alkalmazás kidolgozásakor 41 000 millió szóból álló magyar (és 62 000 millió szóból álló angol) szövegállományt tápláltak be a kutatók, összehasonlításul az OpenAI Chat GPT 120-130 millió magyar (és 180 000 millió angol) szóból tanult. A Puli a közeli jövőben bővül majd csevegési funkcióval, de már most képes megadott szavak alapján összefüggő szövegeket írni, össze tudja foglalni egy cikk vagy egy könyv tartalmát.
- A magyar állam és az OTP bank közös finanszírozásában, hazai egyetemek bevonásával zajlik 2021 óta a magyar mesterséges intelligencia nyelvi modell létrehozása. Első lépésben elkészült az alap nyelvi modell, mely 1500 millió paramétert használt, és most zajlik a 30 000 milliósra bővítése. A munka célja, hogy olyan nyelvi modellt hozzanak létre, ami segíti a vállalati és a magánügyfelek kiszolgálását, növeli a hatékonyságot, és hosszú távon versenyképessé teszi nemcsak a bankokat, hanem az egész magyar gazdaságot.
Dr. Dietz Ferenc, a Mesterséges-intelligencia Koalíció oktatási és tudatosítási munkacsoportjának a vezetője, a Gábor Dénes Egyetem elnöke hangoztatja:
A nyelvi modelleken alapuló alkalmazások már megjelentek mind a köznevelésben, mind a felsőoktatásban. Készségszintű, tudatos használatuk mind az egyén, mind a társadalom számára a jövőképesség, a siker feltétele. A jól működő magyar nyelvi modell jóléti ügy is, mivel növeli a mesterséges intelligencia magyar haszonélvezőinek a körét. A Gábor Dénes Egyetemen ezért nemcsak az oktatásunkban, hanem a kutatásainkban is kiemelt fontosságú a nyelvi modell használata.