Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


A CoNLL feladat

Felhívjuk a figyelmet arra, hogy az NP-chunk általunk adott, a szakirodalomban legelterjedtebbtől eltérő definíciója jelentősen hosszabb és szerkezetüket tekintve komplexebb NP-ket eredményezett, mint az alap-NP-k. Ez magyarázza a szakirodalomban szokásosan láthatónál alacsonyabb pontszámokat. Noha figyelmünk középpontjában a maximális NP-k azonosítása volt, algoritmusunk teljesítményét a state-of-the-art statisztikai szegmentálóalgoritmusokéval is össze kívántuk vetni, ezért a már említett angol nyelvű CoNLL 2000 feladaton is kipróbáltuk. A CoNLL 2000 feladat tanuló- és tesztadata rögzített, ezáltal szolgálhat a különböző szegmentálóalgoritmusok összehasonlításának standard terepeként. Eszközünk 93.79%-os F-pontszámot ért el a feladaton, míg a legmagasabb publikált eredmények között szerepel például 94.34% (Sun et al. 2008) és 94.29% (Sha–Pereira 2003) is. Bár ez utóbbi eredményektől rendszerünk kb. fél százalékponttal elmarad, fontosnak tartjuk megemlíteni, hogy azoknak a komplexebb modelleknek a tanítása, amelyeknek a segítségével ezek az eredmények születtek (Conditional Random Field, CRF, l. Lafferty et al. 2001) akár egy nagyságrenddel hosszabb időt vesz igénybe, mint az általunk bemutatott modellezési eljárás.

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave