Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


A feladat

Bár a szakirodalomban NP-chunkoláson általában az alap-NP-k megtalálását értik, mi egy ezzel gyakorlatilag ellentétes definíciót választunk, amennyiben NP-chunknak tekintünk minden olyan szósorozatot, amely a mondat elemzési fájában NP-t alkot és ezt az NP-t nem tartalmazza magasabb szintű főnévi csoport (ezeket fogjuk maximális NP-knek nevezni). Ez a definíció lehetővé teszi, hogy a chunkolással a mondat közvetlen összetevőit különítsük el és a mondatban szereplő igék vonzatkeretét feltérképezzük, ami a gépi fordításban különös jelentőséggel bír. Ezen túl a maximális NP-k azonosítása az információ-kinyerésben is hasznos lehet, amennyiben a mondatokban szereplő főneveket összes bővítményükkel együtt nyerjük ki. Fontosnak tartjuk megemlíteni, hogy az NP-chunk itt használt definíciója csupán a korpuszt előállító rendszer beállításaitól függ, így amennyiben eltérő egységeket tekintünk chunknak – például a fent említett módon az alap-NP-ket szeretnénk azonosítani – úgy ahhoz egyszerűen állítható elő megfelelő tanítókorpusz. A jelen cikkben bemutatott rendszer tehát bármilyen módon definiált NP-chunk azonosítására alkalmas, választásunk jelentősége abban rejlik, hogy a rendszer – a későbbiekben részletesen ismertetett – paramétereit, így különösen a tanításhoz használt jegyek összetételét úgy választottuk meg, hogy a maximális NP-k azonosításában a lehető legjobb eredményt érje el. Tanulóadataink forrása az 1,43 millió szóból álló Szeged Treebank korpusz (Csendes et al. 2005), mely különböző műfajú (szépirodalom, újságcikkek, jogszabályi szövegek, szoftverdokumentációk stb.), morfológiailag annotált és mondattanilag elemzett szövegekből áll. Egy Treebank a benne szereplő mondatok teljes elemzési fáját tartalmazza, így az NP-k azonosításához szükségesnél bővebb szerkezeti információkat is, amelyekre az NP-korpusz előállításakor nincsen szükségünk. Az általunk elvégzett eljárás lényege, hogy a Treebank-ben található elemzési fákat bejárjuk, az azokban található szavakat pedig a rendelkezésre álló morfológiai információkkal együtt a korpuszhoz adjuk, feljegyezve azt is, hogy részét képezik-e maximális NP-nek, azaz a mi definíciónk szerinti NP-chunknak.

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave