Gépi kézírás-felismerő modell készült az Országos Széchényi Könyvtárban

Megjelent az első, publikus, magyar nyelvű számítógépes kézírás-felismerő modell. A HTR- (Handwritten Text Recognition-) modellt az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja (OSZK DBK) hozta létre, és bárki számára elérhetővé tette a Transkribus nevű szoftver komponenseként. Alapját Kiss József, a 19–20. század fordulóján élt magyar költő, a Nyugat előfutáraként számontartott A Hét című hetilap szerkesztőjének szakmai és személyes levelezése képezi. (A nyitó képen Petőfi Sándor levele Arany Jánosnak a Toldi megjelenése alkalmából.)

A kézírás-felismerést mesterséges intelligencián alapuló algoritmus végzi. Ezt először be kell tanítani, hogy a különféle kézírásokat felismerje, majd a megadott minták alapján felépít egy modellt, amivel képessé válik arra, hogy egy általa ismeretlen, még nem látott kézírásképet is értelmezzen. Minél többféle anyagon tanítjuk, annál jobban teljesít különféle szövegeken. A jelenlegi modell először Kiss József írásán, majd a levelezőpartnerek vegyes kézírásán tanult.

Az eddig felhasznált kéziratok a Petőfi Irodalmi Múzeumban (PIM) találhatók, a tanulásra használt szavak száma körülbelül 75 ezer. A dokumentumok között szerepelnek borítékok, képeslapok, hagyományos és fejléces levelek, névjegykártyák is. A levélírók Kiss József és családja, illetve a századforduló írói, újságírói és művészei: Ady Endre, Móricz Zsigmond, Tömörkény István. Ez összesen 300 darab változó hosszúságú és minőségű levél, amit az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja folyamatosan közzétesz az olvasók számára ezen az oldalon. A levélváltások további kéziratai jelenleg is feldolgozás alatt állnak az OSZK-ban és a PIM-ben.

A modell 90%-os pontossággal meg tudja állapítani, milyen karakterekből áll a szöveg.

A magyar nyelvű, automatikus kézírás-felismertetést használó programok kidolgozóinak össze kell fogniuk, hogy a saját szövegkorpuszokon betanított modelleket egymásba építve egyre általánosabb érvényű eszköz jöjjön létre a magyar kéziratos források digitalizációjához.

Közös érdek ugyanis, hogy a közgyűjteményekben rejtőző kulturális kincsek a digitális térben szövegként hozzáférhetővé, olvashatóvá, kereshetővé, számítógépes eszközökkel is feldolgozhatóvá, kutathatóvá váljanak, ahogyan a dhupla.hu oldalon közzétett szövegkiadások, illetve a hozzájuk tartozó kreatív tartalmak esetében is láthatók. A most nyilvánosságra hozott első magyar kézírás-felismerő modell ennek a folyamatnak kiemelkedően fontos alkotása.

Az új magyar kézírás-felismerő modell megtalálható a Transkribus asztali alkalmazásban és a webes felületen is.