Nyelvi visszacsatolás karakter-, kézírás- és beszédfelismerő rendszerek számára

(Linguistic Feedback for OCR, Handwriting and Speech Recognition Systems)


 

A különféle felismerő rendszerek jelenlegi legnagyobb problémája a bizonytalan, pontatlan — szakszóval: alulspecifikált — bemenet. Amennyiben a felismerendő anyag nyelvileg is értelmezhető, tehát nem formaelemek valamilyen felsorolása, táblázat, hanem akár írott, akár elmondott szöveg, a nyelvvel kapcsolatos ismeretek igen jól felhasználhatóak a pontos, helyes megértéshez, még ha maga az információforrás ezt halványan, halkan, gyengén közli. Analógiával: a rosszul látó, vagy a rosszul halló emberek épp a nyelvi készségüknek köszönhetően jobban kommunikálnak olyankor, amikor építhetnek a nyelv ismeretére.

Az optikai szövegfeldolgozás amúgy is nehéz helyzetbe került, ugyanis ma már a számítógépen születnek a szövegek, a nem számítógépes eredetű anyagok feldolgozása így elsősorban a régen rögzített, számítógép előtti anyagok esetében volna fontos, azaz épp ott, ahol a minőség garantáltan gyengébb az egyre professzionálisabb nyomtatókon kinyomtatott mai anyagokénál.

A beszédfeldolgozás legnagyobb problémája, hogy nehéz meghatározni, mikor érdemes szótárhoz fordulnia, azaz mik a bemenet szegmenseinek határai. Ha a bemenet értelmezése közben nem tudjuk, meddig tartanak az egyes szavak, nehéz optimális algoritmust készíteni a gyors felismerésre. Ha rendelkezésre áll azonban egy olyan eszköz, mely a nyelv nem pusztán statisztikai ismerete alapján működik, hanem a folyamatos bemenet egyfajta értelmezésére képes, jó eredményeket kaphatunk. Ne feledjük, az agglutináló nyelvekben, így a magyarban is a szavak nem sorolhatóak fel, és egyetlen szótári alapszó nagyon sokféle végződést kaphat a folytonos szövegben. Többek között ez is az oka annak, hogy még agglutináló nyelvekre nem készült folyamatosbeszéd-megértő rendszer.

Az elkészítendő rendszer kapcsolódik az európai szabványokhoz és a tudományos közéletben már elfogadott egységes reprezentációkhoz. Célkitűzésünk, hogy az elkészült felismerés-támogató rendszer a magyar nyelven kívül más — európai és nem európai — természetes nyelvekre is alkalmazható legyen.

A projekt résztvevői több éven keresztül végeztek európai nemzetközi projekt keretében K+F tevékenységet különféle természetes nyelvi alkalmazások tárgykörében. A jelen pályázat ezeknek, valamint az eddig elért itthoni és nemzetközi eredmények technológiai integrációját jelenti. A pályázat céljainak megvalósulása fontos lenne nemcsak az említett tudományos és gyakorlati szempontokból, hanem tudománypolitikai okokból is, hiszen jelenleg hazánkban nem folyik olyan kutatás, mely a beszéd- ás szövegtechnológia, illetve a karakterfelismerés és a nyelvtechnológia európai igényű integrációjának akár legkisebb jegyeit is mutatná.

1. Célkitűzések

A projekt célja egy olyan általános felismerés-támogató módszer, az ennek elkészítéséhez szükséges technológia kifejlesztése és ennek első konkrét alkalmazási prototípusa, amely teljesíti az alábbi követelményeket:

·          rendelkezik a folytonos bemenet szegmentálására alkalmas modullal

·          kezeli az időben és minőségben alulspecifikált információt

·          a nyelvi modulok párhuzamos kezeléséről gondoskodik

·          speciális lexikális adatbázissal rendelkezik karakterfelismeréshez és prototípus-adatbázissal beszédfelismeréshez

·          képes megküzdeni a szóhatáron túli fonetikus illeszkedés problémájával

Tudományos szempontból nemzetközi érdeklődésre tarthat számot az egész módszer, mivel ehhez hasonló, nyelvtechnológiai indíttatású rendszer tudomásunk szerint pillanatnyilag semmilyen felismerő rendszerrel nem működik.

2. A projekt tárgya és választott témaköre

A nyelvtechnológia, azaz az ipari méretekben működő természetesnyelv-feldolgozás napjaink egyik legdinamikusabban fejlődő területe. Az internet elterjedése önmagában is jelentős igényeket támaszt az IT szakemberekkel szemben. Ezt csak erősíti az Európai Unióhoz csatlakozásunk, és magának az uniónak is egyre nagyobb mértékben van szüksége a különböző természetes nyelveken megírt információ források feldolgozására. Egyre nagyobb fontossága van a nem hagyományos bemeneti lehetőségek fejlesztésének. Az optikai felismerés és a beszédbemenet kutatására Nyugat-Európában már több éve jelentős kutatások folynak. Ez motiválta a jelen pályázót, hogy megkíséreljen olyan projektet létrehozni, amely nem pusztán a nyugati eredmények átvételére irányulna a magyar nyelv vizsgálatában, hanem technológiai innovációt is tartalmaz a felismerő rendszerek és a nyelvtechnológia kombinációjának módjában is.

3. Innováció

A projekt innovációtartalma nagy, hiszen a mai napig csak utólagos ellenőrzésre használták a nyelvtechnológia eszközeit a felismerő rendszerek. Akár beszéd-, akár optikai felismerésről van szó, a nyelvi anyagok csak a belőlük készített statisztika formájában állnak a ma működő rendszerek rendelkezésére. Olyan rendszer, mely a bemenet nyelvi tartalmát valós időben elemzésnek vetné alá, és így a nehezen értelmezhető bemenet felismerési pontosságát javítaná vele, még tudomásunk szerint sehol sem készült. A létrehozandó technológiát a pályázó védettnek kívánja tekinteni, ám a tudományos érdeklődésre számot tartó általános érvényű eredményeket továbbra is publikálni kívánja a megfelelő szakmai folyóiratokban, illetve konferenciákon.

4. A projekt eredményeinek hasznosítása

Az elkészült prototípusokat maga a pályázó szándékozik hozzáépíteni mindazokhoz a felismerő programokhoz, melyek az alacsony szintű kommunikációt kezelni képesek.  A technológia mások számára történő értékesítését a jól definiált interfészek (API), illetve a beépítések technikai megoldásai segítő mintaprogramok szolgálnak. Az értékesítés feltételeit, nem dobozos termékről lévén szó, külön szerződések szabályozzák majd.

 

 

 

Vissza a kezdőlapra