Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


A magyar nyelvtechnológia eredményei a beszéd kezelésében

Az írott nyelvvel kapcsolatos nyelvtechnológiai eredmények azért olyan fontosak, mert – az emberrel szemben – a számítógépnek az írott és nem a beszélt nyelv az „elsődleges nyelve”. Ugyanakkor az egyre emberközelibb, továbbá az egyre táguló információtechnológiai alkalmazások igénylik azt is, hogy bizonyos információkat a gép szóban mondjon el (beszédszintézis), illetve, hogy a számítógép megértse az emberi beszédet (beszédfelismerés). Ez a terület – a nyelvtechnológiai meghatározást követve – a beszédtechnológia. Itt is kiváló eredményeket mutathat fel a magyar kutatás-fejlesztés. A beszéd mesterséges előállításának kiinduló alapja a szöveg, amit a gép felolvas. A beszéd megértésekor az elhangzó akusztikai jelből kell a gépnek eljutni a nyelvi formához. A beszédtechnológia alapjainak elsajátításához ajánljuk az érdeklődőknek a Németh Géza és Olaszy Gábor által szerkesztett könyvet (Németh–Olaszy 2010). Az akusztikai, fizikai, jelfeldolgozási folyamatok professzionális kezelésén túl is azonban az a folyamat, amelyben a szövegtől a gépi beszédig vagy a gépi beszédtől az írott szövegig eljutunk, számos olyan nyelvtechnológiai megoldást tartalmaz, amelyben a szűkebb értelemben vett nyelvészet is érintett. Az automatikus beszéd-előállítás egyik legnehezebb problémaköre a név- és címfelolvasás jó minőségű megoldása (például cégbírósági adatok lekérése telefonon, tőzsdei információk beszéddel való megadása, automatikus telefonos tudakozó a szám alapján stb.), ugyanis meg kell határozni a név (cég-, illetve személynév) hangzó, kiejtési formáját (ami sok esetben nem egyszerű), majd a kiejtés prozódiai paramétereit (hol legyen hangsúly, szünet, milyen dallamformával kell „elmondani” a kért adatot), végül ki kell alakítani az esetleges szótagolási, betűzési formákhoz a szabályokat. A megoldásra nagy mennyiségű valós név- és címadatot kell feldolgozni, statisztikailag osztályozni, csoportokba sorolni, elemezni és kialakítani a megfelelő kiejtési szabályokat, prozódiai formákat. Magyarországon az első komplex név- és címfelolvasó 2003-ban készült el a BME TMIT fejlesztésében (Németh et al. 2003) egy automatikus számszerinti tudakozó alkalmazáshoz (mintegy négymillió telefon-előfizető adatainak felolvasására). A fejlesztés során végzett tesztek azt mutatták, hogy a nevek, cégnevek gépi felolvasásánál még fokozottabban érvényes a jó érthetőség biztosítása (esetleges túlbiztosítása), mint a normál szöveges felolvasásnál, hiszen ennek hiánya hibás információadást eredményez. Erre fejlesztették ki az úgynevezett „részletező” felolvasási formát (Fék et al. 2004), amely az első magyar beszélő szótagoló automatának is tekinthető. A részletező felolvasást kérő felhasználó szótagolva hallja az adott nevet, továbbá kiegészítő, pontosító információkat is tud kérni a név írásával kapcsolatban, pl. családnevek esetében.

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave