5.2.1. Klasszikus megközelítés

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Elsőként a HMM-DNN (Hidden Markov Model – Deep Neural Network: rejtett Markov-modell – mély neurális háló) megközelítésű beszédfelismerési technikát alkalmaztuk, melynek sajátja, hogy jól elkülönülő nyelvi szintek jelennek meg a modellezésben, úgymint: akusztikus modell fonéma- vagy grafémaszinten, kiejtési modell, amely fonéma- vagy grafémaegységeket kapcsol össze ortografikus szóalakokkal, és végül nyelvmodell-szint, mely a felmerülő hipotetikus szósorozatokhoz a priori (tehát az akusztikum ismerete nélküli, előzetes) valószínűséget rendel.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Graféma alapú akusztikus modell alatt olyan megközelítést értünk, ahol az akusztikai jel és az írott nyelv közötti leképezés közvetlen, azaz egy hangrészlet – és akusztikus, esetleg szöveges környezete – alapján egy vagy több graféma kiírásának valószínűségét becsli a modell. Ha egyszerre csak legfeljebb egy (egyjegyű) graféma valószínűségének becslése történik, akkor karakter (vagy betű) alapú akusztikus modellezésnek is szokás nevezni. Több egymás utáni graféma is képezhet egységet az akusztikus modellben, ezekre szótöredék alapú akusztikus modellekként hivatkozunk később.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A Kaldi nyílt forráskódú eszköz (Povey et al. 2011) ún. CNN-TDNN-F (Zorila et al. 2019) neurális modelljét használtuk klasszikus 3-gram nyelvmodellekkel párosítva. A további technikai részletek megtalálhatók Mihajlik et al. (2022a,b)-ben; ebben a tanulmányban – a könnyebb áttekinthetőség érdekében – csak a kiértékelő halmazon mért végeredményeket közöljük a 6. táblázatban. A szóhibaarányon (WER: Word Error Rate) felül a karakter-hibaarányt (CER: Character Error Rate) is megadjuk, mivel a magyarhoz hasonló toldalékoló nyelvekre fontos kiegészítő metrikaként szolgál – sőt újabban más (pl. angol) nyelv esetén is gyakori a közlése.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Ahogy a 6. táblázat mutatja, határozott a kontraszt a kötött (olvasott, ill. ismételt) beszéd, illetve a természetes spontán beszéd felismerési pontosságai között: a hibaarányok utóbbi esetén közel ötször magasabbak. Azért fontos ez az eredmény, mert megmutatja, hogy jelenleg a gépi beszédfelismerési megközelítés mennyire nehezen birkózik meg a természetes spontán beszéddel. Önmagukban az eredményekből nem tudunk arra következtetni, hogy az artikuláció szintjén jelentkezik-e inkább a kihívás, vagy esetleg a szóhasználat szintjén, de egyértelműen látszik a megközelítés kisebb hatékonysága a spontán beszédre nézve. Első ránézésre talán meglepő lehet, hogy graféma – ami itt egyjegyű betűt jelent – alapon inkább jobb eredmények adódnak, mint fonéma alapon, azonban fontos megjegyezni, hogy az akusztikus egységek nem önmagukban, hanem explicit bal kontextussal együtt vannak modellezve, valamint az akusztikus neuronháló ±400 ms kontextusról (implicite) is kap információt. Továbbá nem jellemző, hogy az alapértelmezettől eltérő, speciális kiejtési módú szavak (pl. Dessewffy, Kossuth, Page) szerepelnének a felvételeken.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

6. táblázat. Klasszikus HMM-DNN alapú beszédfelismerési eredmények a BEA-Base adatbázison
Kötött beszéd
Spontán beszéd
Akusztikai egység
WER (%)
CER (%)
WER (%)
CER (%)
fonéma
6,33
1,62
28,81
9,52
graféma
6,28
1,59
28,15
9,13
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave