Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


Automatikusan épített igei adatbázisok

Az emberi munkával előállított adatbázisokhoz képest kevésbé munkaigényes, de a számítógépes nyelvészet mai állása szerint kevésbé pontos eredményt ad a lexikai információ gépi kinyerése (lexical acquisition), elsősorban korpuszokból. Ilyen jellegű feladatok megoldásához először is meg kell fogalmaznunk feltételezésünket arról, hogy a szóhoz tartozó keresett lexikai információt milyen, a korpuszbeli előfordulások alapján számszerűsíthető tulajdonságok reprezentálják. A vonzatkeret-kinyerés esetében (Brent 1991; 1993; Briscoe–Carroll 1997) arra a feltételezésre építhetünk, hogy a vonzatot specifikussága különbözteti meg a szabad határozótól, azaz gyakrabban fog előfordulni az őt szubkategorizáló igék mellett, mint általában egy tetszőleges ige mellett. A szabad határozó ezzel szemben minden ige mellett éppen ugyanakkora eséllyel fordul elő. Ezért a legtöbb módszer az ige és a vonzatjelölt együttes előfordulási gyakoriságából indul ki, és különböző statisztikai tesztekkel (pl. binomiális teszt, t-teszt) vizsgálja, hogy megállapítható-e, hogy az adott predikátum és a vonzatjelölt nem függetlenek egymástól (statisztikai értelemben). Nem teljesen igaz azonban, hogy az automatikusan kinyert vonzatkeret-információ csak arra a feltevésre épít, hogy minden, az adott predikátum mellett gyakran előforduló nyelvi elem vonzat. A módszerek mindig tartalmaznak több-kevesebb prekoncepciót arra vonatkozóan, hogy nézhet ki egy vonzatkeret. Ez a prekoncepció vagy magából a korpuszból jön (az annotáció meghatározza, hogy milyen vonzatkeret-jelöltek nyerhetők ki), vagy az algoritmusból: pl. milyen szinten általánosítja a korpuszban talált előfordulásokat, vagyis milyen reprezentációt alkot; másrészt utólagos szűrőket is gyakran tartalmaznak, ami szintén építhet arra, hogy mennyire valószínű, hogy a jelölt vonzatkeret lehet az adott nyelvben.

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave