Prószéky Gábor, Váradi Tamás (szerk.)

Általános Nyelvészeti Tanulmányok XXIV.

Nyelvtechnológiai kutatások


Beszédhang-alapú akusztikus modellezés

A beszédfelismerési technológia az akusztikum modellezésében a hagyományos lineáris szemléletből indul ki, azaz feltételezi, hogy minden egyes azonosítandó címkéhez tartozik egy időben viszonylag egyértelműen behatárolható jelszakasz (szegmentum). A szegmentumok azonosításában nincs élesen szétválasztott fonetikai és fonológiai szint, azaz a címkézéshez alapvetően az adott nyelv fonémakészletéből szokás kiindulni, de gyakran allofónok is külön címkét kapnak, valamint arra is akad példa, hogy fonémákat is egybevonnak (azt feltételezve, hogy nyelvi szinten könnyebb lesz őket szétválasztani, mint akusztikai szinten). Így a kiindulási címkekészlet 40–50 körüli elemből szokott állni, melyekre az egyszerűség kedvéért „beszédhang” címkeként fogunk hivatkozni. Ezután statisztikai elven működő gépi tanulási algoritmusokat (általában ún. Gauss-keverékmodellt, ritkábban mesterséges neuronhálót, mindkettőről l. Bishop 2006) tanítunk be arra, hogy a beszédjel egy adott pillanatáról megmondják, hogy milyen beszédhanghoz (címkéhez) tartozhat, és milyen valószínűséggel. Az egyes pillanatokhoz rendelt címke-valószínűségeket az ún. rejtett Markov-modell (Huang et al. 2001) segítségével fűzzük össze. Ez a matematikai eszköz segít megtalálni a jel legvalószínűbb szegmentálását, és az egyes szegmentumok legvalószínűbb címkéjét. A címkékből szintén lineáris módon, azaz címkesorozatok megadásával definiálunk szavakat (ezekből áll az ún. kiejtési szótár). Elég csak néhány beszédjelet közelebbről megvizsgálnunk ahhoz, hogy rádöbbenjünk, a linearitás elve mennyire tarthatatlan. Artikulációs szerveink működésének nyilvánvaló fizikai korlátai miatt a szomszédos beszédhangok még a leggondosabb artikuláció esetén is részben összemosódnak. A koartikulációt1 a beszédtechnológia úgy próbálja kezelni, hogy a szegmentumokat tovább bontja, szokásosan három szakaszra: a középső szakasz hivatott leírni a hang viszonylag stabil (izolált ejtéshez közelítő) ejtési fázisát, a két szélső pedig a szomszédos hangokba való hangátmeneti fázisokat. Továbbá, mivel az egyes hangok akusztikai képe erőteljesen függ a szomszédos hang mibenlététől, ezért az időtengely mellett a címkekészletet is tovább bontjuk: a három ejtési fázis más-más elnevezést kaphat a vizsgált és a szomszédos hang függvényében. Ezt a technológiát trifón-modellezésnek nevezzük, az így előálló, finomított címkehalmaz elemeit pedig szenonoknak (Huang el al. 2001). A trifón-technikával a rejtett-Markov-modelles felismerés hatékonysága jelentős mértékben növelhető. Hátránya, hogy a címkék megnövekedett száma miatt a szükséges betanító korpusz méretét is növelni kell, hogy minden lényeges, hangkörnyezettől függő ejtésvariánsra kellő mennyiségű előfordulás jusson. A mai rendszerekben a szenonok száma jellemzően öt- és tízezer között mozog, betanításukhoz pedig minimálisan több 10 órányi időtartamú korpusz kell, de inkább a 100 órás nagyságrendet szokás szükségesnek ítélni (egy magyarhoz hasonló „kis” nyelv esetére l. pl. Alumäe 2005).

Általános Nyelvészeti Tanulmányok XXIV.

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2018


A kiadvány regisztrációval szabadon elérhető.

A mai számítógépeken futó legtöbb alkalmazás találkozik az emberi nyelvek beszélt vagy írásos formájának valamelyikével: leveleink, híreink, könyveink, tudományos publikációink valamilyen emberi nyelven íródnak, és a gépek ezeket a szövegeket segítenek létrehozni, kijavítani, lefordítani vagy éppen keresni bennük. Ezeknek a tevékenységeknek a leírására a human language technologies elnevezést használja a nemzetközi szakirodalom. Magyarul ez a fogalom nyelvtechnológia néven vonult be a szakmai köztudatba. Az Általános Nyelvészeti Tanulmányok 24. kötete a nyelvtechnológia legújabb hazai kutatásait állítja a középpontba.

A tanulmányok reprezentatív áttekintést szándékoznak adni a magyar nyelvtechnológia jelenleg használt módszereiről és legújabb eredményeiről: a kötet a hazai gépi nyelvészet történetének áttekintésével indul, majd egy-egy írás foglalkozik a szóalaktan, a főnévi csoportok, a tulajdonnevek, a hatóköri relációk, a birtokos és a koreferenciális szerkezetek gépi kezelésével, az igék lexikai reprezentációjával és az analógiás tanulással. Felvillantjuk a modern nyelvtechnológiának a szociolingvisztikában, a metaforikus nyelvhasználat gépi kezelésében, az emberŚgép kommunikáció különféle vonatkozásainak vizsgálatában és a nyelvtörténeti kutatásban való felhasználását is. A kötetet egy a szorosan vett nyelvtechnológiával közvetlenül szomszédos terület, a hangzó anyagok gépi feldolgozásával és létrehozásával foglalkozó beszédtechnológia két kutatási összefoglalója zárja.

A pontosan ötven évvel ezelőtti első hazai számítógépes nyelvészeti konferencia egyik fontos szereplője s az azóta eltelt ötven év jelentős részében az Általános Nyelvészeti Tanulmányok sorozat egyik szerkesztője, Szépe György közvetlenül kötetünk megjelenése előtt hunyt el. Munkánkkal az ő emléke előtt is tisztelgünk.

Hivatkozás: https://mersz.hu/kenesei-proszeky-varadi-altalanos-nyelveszeti-tanulmanyok-xxiv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave