Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


Bevezetés

A modern gépi beszédfelismerő rendszerek alapvetően két fő részre bonthatók, egy akusztikai és egy nyelvi komponensre. Előbbi feladata a beszédjelben bizonyos absztrakt percepciós osztályokat megtalálni és azonosítani, azaz az akusztikus jel és bizonyos fonetikai-fonológiai címkék kapcsolatát modellezni. A nyelvi komponens pedig a javasolt címkesorozatokat támogatja vagy elveti annak függvényében, hogy azok a vizsgált nyelvben valószínűsíthető szavakat-szósorozatokat alkotnak-e vagy sem. Jelenleg mind az akusztikai, mind a nyelvi modellek matematikai, gépi tanulási elveken működnek, azaz viszonylag kevés nyelvészeti szakértelmet igényelnek, de – főleg a nyelvi komponens esetén – elég valószínűnek látszik, hogy a rendszerek további javításához nyelvspecifikus (morfológiai, szintaktikai, szemantikai) tudás bevitelére lesz szükség. A gépi tanuláson alapuló komponensek sem nyelvfüggetlenek, mivel statisztikai alapon működnek, ami azt jelenti, hogy hatalmas mennyiségű, az adott nyelvből származó tanító adaton kell őket betanítani. Emiatt hatalmas tanító korpuszokat kell készíteni – jelenleg minden egyes nyelvre külön-külön. Ez a rendkívül műveletigényes fázis a nyelvi modellezés szintjén elkerülhetetlennek tűnik; azonban az akusztikai-fonetikai szinten nem hamvába holt ötlet közös – sőt, akár univerzális – építőelemeket keresni. Ezeket kihasználva a világnyelvekre elkészített akusztikus modellek teljesen, vagy legalább részben átvihetőek lennének a kevésbé kutatott nyelvekre, így egy „új” nyelvre nem kellene a beszédkorpusz építését a nulláról kezdeni, vagyis a fejlesztést gyorsabbá és olcsóbbá lehetne tenni. Jelen cikkünkben két, az akusztikus modellek nyelvek közötti „átültetését” célzó módszert hasonlítunk össze. A témában további irodalmat keresőknek Schultz és Kirchhoff (2006) áttekintő kötetét ajánljuk kiindulópontnak.

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave