Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


A magyar korpusznyelvészet eredményei

Az egyik legjelentősebb új nyelvtechnológiai fejlemény, amelyet a számítógépek kapacitásának növekedése okozott, a korpusznyelvészet megszületése. Ennek a kutatási területnek a segítségével a nyelvhasználat rejtett dimenziói kerülnek felszínre, méghozzá pontosan adatolt formában. Mint említettük, a korpusznyelvészet magyarországi története az 1980-as évek elejére, az Akadémiai Nagyszótár munkálatainak újraindításához vezethető vissza. Eredetileg 10 millió szövegszó összeállítása szerepelt a tervekben, amelyeket századonként egy-egy, főleg filológusokból álló szakértőbizottság állított össze 16–20. századbeli szövegekből. Az úgynevezett Történeti Korpusz mintegy 23 millió szövegszót tartalmaz, és 1772 és 2000 között keletkezett szépirodalmi, tudományos ismeretterjesztő és publicisztikai művekből, műrészletekből áll (Pajzs et al. 2004). A korpusz minden szava morfológiailag elemzett alakban szerepel. A szövegek feldolgozásánál különleges problémát jelentett a régies helyesírás, illetve az archaikus alakváltozatok kezelése. A ma már nem élő helyesírási alakok kódolására egy – már az indulásnál erre a célra bevezetett – speciális kódkészlet (Prószéky 1985) kiterjesztett változatát használják, azaz az alapbetű mellé tett szám segítségével kódolják az illető alapkarakter diakritikus jelekkel ellátott változatait. A kihalt alakok kezelésére külön heurisztikus eljárást kellett kidolgozni (Kiss et al. 2001).

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave