Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


A beszédhang-alapú modellezés gyengeségei

Vegyük észre, hogy a fent ismertetett felbontási trükkel csak a felismerési alapegységeken finomítottunk, de a linearitási feltevést nem vetettük el: a felismerőrendszer továbbra is feltételezi, hogy az egyes szavak bizonyos egységek előre meghatározott sorozataként állnak elő, és hogy az egyes egységekhez egy-egy meghatározott jelszakasz tartozik. A beszédfelismerési kísérletek szerint gondosan artikulált, például olvasott beszéd esetén a koartikuláció ilyen egyszerű, alapvetően csak a szomszédos hangokat figyelembe vevő kezelése elégségesnek nevezhető: a piacon kapható diktálórendszerek – a beszélő hangjához való adaptáció után – gyakorlatilag is használható felismerési pontosságot tudnak elérni. Mi magunk magyar nyelvű, hangoskönyveken végzett kísérleteinkben a beszédhangok sorozatát nyelvi támogatás nélkül is 86%-os pontossággal tudtuk felismerni, és a felismerő fonetikai szintű kimenete szabad szemmel is olvashatónak bizonyult (Tóth 2009). Általános tapasztalat azonban, hogy spontán beszéd esetén a felismerők hatásfoka drasztikusan leromlik. A jelenség megértése céljából végeztek olyan vizsgálatokat, ahol egy megbeszélésen felvett hanganyagot utólag újraolvastattak a résztvevőkkel. Az olvasott és a spontán felvételeken mért felismerési hiba között közel kétszeres faktort kaptak (Weintraub et al. 1996). Magyar nyelvre Mihajlik és társai próbálkoztak spontán és tervezett beszéd (hírműsorok) ugyanazon technológiával való felismerésével (Mihajlik et al. 2009). Habár az eredmények nem precízen összemérhetők, hiszen a két feladat közt a beszédmódon kívül más eltérések is voltak, az általuk kapott bő kétszeres hibatényező is jól érzékelteti, hogy milyen jelentős hatékonyságromlás lép fel spontán beszéd esetén. A felismerési hibák részletes elemzése nyomán több kutató is arra a következtetésre jutott, hogy a beszédhang-alapú ejtésmodellezés nem biztos, hogy alkalmas a spontán beszéd leírására – még a finomított, trifónokat használó megoldással sem (Ostendorf 1999). Az alapvető problémát az okozza, hogy spontán beszédben gyakran lépnek fel olyan redukciós jelenségek, amelyek több hangon is átívelnek, így nem modellezhetők két szomszédos hang közötti átmeneti fázisok segítségével. Vegyük például azt az esetet, amikor a tonhal szó ejtésekor az [n] kiesik – legalábbis olyan értelemben, hogy nem rendelhető hozzá szegmentum. Azonban nem tűnik el teljesen nyomtalanul, mivel a megelőző magánhangzót nazalizálja (Siptár–Törkenczy 2000). Ilyenkor az sem jó megoldás, ha a kiejtési szótárban a szó leírásakor meghagyjuk az [n]-t: a felismerő keresni fogja a hozzá tartozó jelszakaszt, pedig ilyen nincs. De az sem jó, ha kihagyjuk: ekkor a rendszer nem fogja tudni, hogy nem normál ejtésű [o]-t kell keresnie, így a nazalizált változatot nem fogja szeretni. További finomításokkal persze lehet kezelni ezeket a problémákat – például minden „trükkös” jelenségre külön-külön modell bevezetésével –, de egyáltalán nem biztos, hogy ez a célravezető megoldás. Sokak szerint inkább radikálisan meg kell változtatni a teljes akusztikus modellezést. Egyesek nagyobb egységek, pl. a szótag felé lépnének: ezt azok az (angol nyelvre végzett) mérések motiválják, melyek szerint a szótagon belüli pozíció befolyásolja a koartikuláció működését (Greenberg 1999). A népesebb irányzat szerint viszont a beszédhangnál kisebb egységekkel kellene dolgozni – amire a nyelvészet a megkülönböztető jegyeket kínálja megoldásként.

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave