A számítógépes nyelvészet kulisszatitkairól beszél Prószéky Gábor

(Szerző: Daniss Győző / https://anyanyelvcsavar.blog.hu) Ha hét-nyolc évtizede az átlagember azt olvasta, hallotta, hogy komputer, számítógép, nemigen gondolhatott másra, mint hogy létezik egy ördöngös szerkezet, ami tud osztani, szorozni, százalékot számítani, és talán még köbgyököt vonni is képes. A nyelvről „általában” pedig elsősorban azt tudta, hogy van angol meg német meg kínai. S az iskolai tanulmányokból azt is, hogy a magyar ragozó nyelv, és ragozáskor megkülönbözteti egymástól az ikes meg az iktelen formát… (A nyitó kép forrása: Stuttgarter Zeitung)

Azóta a számítógép és a nyelv fogalma közel került egymáshoz. A sokféle programmal feltöltött műszaki csodák az asztali számítógéptől a tableten, a laptopon keresztül az okostelefonig sokunk mindennapos használati eszközévé lettek. Hatással vannak, lehetnek írásunkra, beszédünkre, s immár a nyelvészek tudományos munkájához is nélkülözhetetlenek. Arról, hogy a közelítés miképpen történt, és miképpen Magyarországon, erről Prószéky Gábor, az MTA Nyelvtudományi Intézete igazgatója, Széchenyi- és Gábor Dénes-díjas, a számítógépes nyelvészet hazai „pápája” mondta el a legfontosabbakat.

– Azt, hogy a komputer – hiszen akkor még nem született meg a számítógép szavunk – a nyelvvel is kapcsolatba kerülhet, az amerikai hadsereg mérnökei vetették fel a második világháború idején. A katonai kódolás ismert volt, és úgy tűnt föl akkoriban, hogy a fordítás is egyfajta kódolási feladat. És mindezek a tennivalók a hidegháború éveiben sem vesztették el a fontosságukat. Az Egyesült Államok a hatvanas évek derekáig nagyon sok pénzt fektetett be elsősorban az orosz és az angol nyelv közötti gépi fordító rendszerek fejlesztésébe. Az akkori hatalmas – még lyukszalagos, lyukkártyás – gépek arra már jók voltak, hogy megtalálják egy-egy kiválasztott szó más nyelvű megfelelőit. De hiányoztak azok a szoftverek, amik szükségesek lettek volna ahhoz, hogy a gép a kikeresett szavakból a tartalmat híven visszaadó mondatokat alkosson. E próbálkozások sikertelensége miatt az USA 1966-ban be is szüntette a gépi fordítások kutatásának, fejlesztésének nagy léptékű támogatását.

Prószéky Gábor

– E „visszalépés” miatt azonban – a mából visszatekintve úgy sejlik – a gépi fordítás ügye nem került le a tudományos-technikai világ szakembereinek napirendjéről…

– Egyáltalán nem került le! Eközben ugyanis, már az ötvenes években, az elméleti nyelvészet is felfigyelt a számítógép kínálta lehetőségekre. Korábban a nyelvészek főként a nyelv, a nyelvek múltját kutatták. A 20. században azonban megélénkült érdeklődésük a nyelvek jelene, „maga a nyelv” iránt. Nem utolsósorban az eredetileg matematikus, amerikai generatív nyelvész, Noam Chomsky hatására. Szerinte léteznek a nyelvekre nemcsak önmagukban, hanem univerzálisan is érvényes működési elvek. A Szovjetunióban az idő tájt szintén jó néhány tehetséges nyelvész dolgozott. Ők az egymástól eltérő formai megoldásokat használó nyelvek matematikai összehasonlításával próbálták a nyelvek összességének közös törvényszerűségeit felfedezni. És úgy esett, hogy az egyik ilyen nyelv az agglutináló, tehát toldalékoló magyar lett.

– Volt-e ennek a kiválasztásnak magyarországi hatása?

– Az ötvenes évek végén, a hatvanas évek elején nyelvészekből és matematikusokból, számítógépes szakemberekből megalakult egy munkacsoport, hogy megszülessék egy orosz–magyar gépi fordítási program. Tudva, hogy a gép nem lesz képes műfordítói szintű szövegeket alkotni, de remélve, hogy a „gépfordítások” segíthetik az „emberfordításokat”.

– Egy fordításnak, persze, alapkérdése, hogy valamely szónak abban az aktuális szövegbeli helyzetben mi a megfelelője a másik nyelven…

– Ezt a feladatot a számítógépes és nyelvész szakembereknek csak részben sikerült megoldaniuk. Ma már bárki hozzáférhet olyan számítógépes szótárakhoz, amelyek szavak sokaságát száznál is több nyelven „tudják”. Sőt, némelyik nyelven nemcsak leírják, hanem ki is mondják. És nemcsak világnyelvekről vagy Európában gyakori nyelvekről van szó, hanem olyanokról is, mint a dél-afrikai xhosa, az indiai gudzsaráti vagy a haiti kreol. De hogy mikor melyik jelentésben áll valamelyik szó, az bizony a szövegkörnyezettől függ.

Hogyan juthatnak el a programok a szavak megfeleltetésétől szószerkezetek mondatrészek, mondatok megfeleltetéséig?

– Nehezen. Kiváltképpen azért, mert a mondatok szerkezete különféle nyelveken más és más. Hiába tud jól angolul egy program, fordításkor nagyon gyakran beleütközhet a másik nyelvnek – akár még a németnek, svédnek, dánnak vagy különösképpen az orosznak – az angolétól különböző valamely sajátosságába. Még nehezebb a fordítás, ha egy szerkezetében gyökeresen különböző nyelven kell megtalálni az eredetivel azonos értékű megoldást.

Ilyen gyökeresen más nyelv – az angolhoz, némethez, svédhez, dánhoz s a más vonatkozásban már említett oroszhoz képest – a toldalékoló magyar. Amit nálunk egyetlen szó fejez ki, azt nem agglutináló nyelvek gyakran csak több szóval, esetleg egy egész mondattal tudják csak elmondani. Például egy ilyen szó: elnézegethetném.

Könnyíti a gépi fordítást – bármelyik nyelvpár esetében –, hogy bizonyos esetekben már nemcsak szavak, hanem szószerkezetek, sőt akár egész mondatok is benne vannak a fordítórendszer adatbázisában. És az sem lehetetlen, hogy egy ritka, mondjuk svéd–bolgár szövegáttevést két lépcsőben oldjanak meg a gépek. Ilyenkor a svédet előbb valamilyen „közvetítő” nyelvre – a gyakorlatban sokszor angolra – fordítják, utána pedig az angolt bolgárra. Ahogyan ez az úgynevezett relézés soknyelvű konferenciákon „embertolmácsolásnál” is gyakorlat.

– A toldalékolás nemcsak fordításkor okozhat nehézséget, olykor magunknak is akadhatnak vele gondjaink. Hiszen: Bécs-ben, de Pécs-en, vagy Pécs-ett. Hogyan boldogulnak az ilyen esetekkel a magyar nyelvű programok?

– Az ezzel foglalkozóknak – ezt a MorphoLogic cég számítógépes nyelvészeti tevékenységének vezetőjeként magam is tapasztalhattam – tengernyi fáradságába került, hogy megtanítsák a gépeket efféle feladatok megoldására. Az olyan egyedi helyzetekben, amelyekre nincs szabály, csak rögzült valamiféle hagyomány – mint az említett városnevek toldalékolása esetében –, viszonylag könnyű volt a megoldás: egy az egyben megadtuk a gépnek az adott városhoz illő toldalékot.

A magyar hangtan és szóalaktan szabályait megfogalmazhatjuk a programok nyelvén, és akkor jól fogja kezelni a különböző közneveket is, mint a ház-on, repülőgép-en, gyümölcs-ön, golyó-n. Tehát a gép „megtanítható” arra, hogy valamely általa addig nem ismert szóhoz is – annak magánhangzójára, magánhangzóira tekintettel – az „-on”, az „-en”, az „-ön” és az „-n” vagy a „-hoz”, a „-hez” és a „-höz” közül melyik ragot illessze. Tehát ha valaki, például egy nyelvtanuló azt írja, hogy virágcserép-ön vagy virágcserép-hoz, akkor a gép felhívja a figyelmet a rossz toldalékolásra, és akár javasolja is a helyes alakot: virágcserép-en, virágcserép-hez. A gép felhívja a figyelmet a rossz toldalékolásra, és akár javasolja is a helyes alakot.

– A mindennapi gyakorlatból kiviláglik, hogy a gép nemcsak toldalékolási hibákat jelez…

– Igen, kiszűr másféle hibákat is. Legalábbis a többségüket. Nem maradhat jelzetlenül a kájha, a malyom, a budapest, a szántófld, a bürökrata. Ezekben az esetekben is ajánlhatja a jó megoldást. A programok a maguk ismeretkörükön belül azt is tudják, hogy két vagy több szót egybe, külön vagy kötőjellel kell-e írni. Ez nem mindig könnyű, még a helyesírási szabályokat nagyon alaposan ismerő embernek sem. És ilyesmikben természetesen nemcsak mi tévedhetünk vagy bizonytalankodhatunk, hanem a gép is. Egy „gyanús” mondatban a legjobb program is zavarba jöhet. Egyik kedvencem az, hogy „A magyar ember evés közben nem beszél” mondat esetében – mert a gép óriási szövegtárában benne van az „emberevés” szó is – a program például felvet egy szerinte jobb lehetőséget: „A magyar emberevés közben nem beszél”.

– Mi történik a nyilvánvaló tévedések eseteiben? Ha valaki például azt írta: „1256-ban zajlott le a mohácsi csata”, vagy azt, hogy „Deák Lajos a haza bölcse”…

– A helyesírási programoknak nincs kulturális háttérismeretük, a számok értelmezésével pedig általában nem tudnak mit kezdeni. A gép tehát nemcsak a mohácsi évszámhoz nem nyúl, hanem azt sem jelzi, hogy valami nincs rendben, ha valamely szöveg szerint napjaink piacán, mondjuk, 24 vagy épp 2400 forintért árulják a krumpli kilóját. A „Deák Lajos” is legfeljebb csak akkor kaphatna esetleg figyelmeztetést egy speciálisan arra a célra írt programtól, ha a szövegben már nagyon sokszor előfordult a „Deák Ferenc” – de ez továbbra sem helyesírási kérdés.

Nehéz helyzetben van viszont a gép az olyan esetekben, amikor hasonló nevek közül kell választania – főképpen, ha csak a vezetéknevet látja: „Széchényi”, „Széchenyi”, „Szécsényi”. Hiszen egy adott szövegben általában csak az egyik név lehet helyes. A programok ebben és az ehhez hasonló helyzetekben érthető módon tanácstalanok. Jobb a helyzet, ha adott a keresztnév is, és ha a gép szövegtárában egyetlen kifejezésként megtalálható esetleg a könyvtáralapító Széchényi Ferenc, a „lánchidas” Széchenyi István és a diszkoszvető bajnok, majd egyetemi tanár Szécsényi József neve. Bonyolítja a dolgot, hogy a „szécsényi” betűsor, ha nem a mondat elején van, adott esetben kisbetűvel írandó, mert csupán jelzője a Nógrád megyei Szécsény városához kötött személynek, intézménynek, épületnek.

– Hogyan boldogul a gép más helyzetekben a kisbetűkkel és a nagybetűkkel?

A kérdésre (és a többire is) a válasz itt olvasható; tessék kattintani!)