Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


A magyar nyelvtechnológiai kutatások gyakorlati eredményei

A számítógépes nyelvészeti alkalmazások gyakorlati jelentőségét az adja, hogy időközben a számítógép alapvetően és elsősorban a kinyomtatandó vagy felolvasandó – és egyre inkább elektronikus formában felhasznált – dokumentumok előállításának eszközévé vált. A Humor morfológiai leíráson alapuló helyesírás-ellenőrzőként bevezetett Helyes-e?, valamint a szintén a kilencvenes évek elején kidolgozott NyelvÉsz – később Lektor (Seregy 1991) – valójában még csak szóellenőrzők voltak. A szószintű helyesírás-ellenőrzőnek „csőlátása” van, hiszen mindig csak azt az egy szót látja, amit odaadott neki a hívó program; fogalma sincs az előző és a következő szavakról. A fentiekkel szemben, ha valaki mondatszinten ellenőriz, akkor több mindent lát, kombinálni tudja a mondat szavainak nyelvi tulajdonságait, és ezáltal bonyolultabb jelenségeket, egybeírást–különírást, vesszőhibákat is képes kezelni. Ezt a fejlesztést végezte el a MorphoLogic a Helyesebb rendszer kidolgozásakor (Naszódi 1997). A kifejlesztett módszer az ún. részleges szintaktikus leírással adja meg az egyes hibajelenségek formális szabályait. A mondatszintű helyesírás-ellenőrző jelenleg körülbelül négyezer szabályt tartalmaz, de újabb jelenségek leírásával a korábbi szabályok módosítása nélkül is bővíthető. A magyar elválasztást nem lehet az elválasztási szabályok puszta gépi kezelésével megoldani. A Helyesel elválasztó rendszer (Prószéky–Kis 1999), amely a megjelenése után hamarosan összeépült a Helyes-e? helyesírás-ellenőrzővel, a szótagolás tökéletes megoldásához a Humor morfológiai elemző programot használja. Ennek a feladata ebben az esetben az egyes szóalakokat felépítő morfémák határainak megtalálása. A kérdéses szóalak morfológiai elemzése segítségével megállapítható, hogy az elválasztás szempontjából összetett szó-e, és ha igen, melyek azok a morfémahatárok, amelyek felülbírálják az egyszerű szótagolással kapott elválasztási pozíciókat. A választékos fogalmazás támogatására a MorphoLogic kidolgozott egy toldalékoló szinonimaszótárt, a Helyette rendszert (Prószéky–Tihanyi 1993). Ez három, nyelvi szempontból fontos funkciót valósít meg: felismeri a forrás-szóalak szótári tövét, megkeresi a forrásszó jelentésköreit, és az azokhoz tartozó szinonimákat; majd visszaírja a szövegbe a kiválasztott szinonima megfelelő alakját. A bemutatott szó- és mondatszintű helyesírás-ellenőrzőből, elválasztóból és szinonimaszótárból álló Helyesek magyar nyelvhelyesség-ellenőrző programcsomag 1993 óta beépült az összes magyarországi irodai rendszerbe (Prószéky–Kis 1999), sőt ugyanez a magyar technológia a román nyelv leírására alkalmazva 1996-tól elérhető az összes romániai irodai termékében is. Fontos nyelvpolitikai eredmény volt, hogy a MorphoLogic teljes magyar nyelvhelyességi csomagja 2000-ben bekerült a legelterjedtebb irodai programrendszer szlovák nyelvű változatába is. A szövegekben való keresés szerepe az utóbbi időben az internet előretörése miatt jelentősen megnőtt. A mai keresőprogramok egyszerűen egy rövidebb betűsorozatot próbálnak megkeresni egy nagyon hosszúban, méghozzá minden intelligencia nélkül, a keresett szövegnek csak azokat az előfordulásait jelezve, melyek pontosan, betűhíven megegyeznek a keresendő betűsorozattal. Ennek a problémának a kiküszöbölésére fejlesztette ki a MorphoLogic a magyarra és más nyelvekre a HelyesLem lemmatizáló rendszert (Prószéky 1996), amelyet többek közt a Microsoft által több nyelv keresőmoduljába beépített MorphoStem kereséstámogató rendszer is használ (Prószéky 2001).

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave