5.2.3. Neurális megközelítés nyelvmodellekkel segítve

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az előző kísérletben – a klasszikus megközelítéssel ellentétben – nem használtunk explicit nyelvmodellt, amely segítene a hasonló hangzású variánsok közül a nyelvileg valószínűbbet kiválasztani a felismerési folyamat során. Ezt a következő kísérletekben pótoltuk, egyben kiterjesztettük a vizsgálatokat az ún. Conformer enkóder struktúrára (Gulati et al. 2020), amely egyesíti a konvolúciós neurális hálózatok (LeCun–Bengio 1995) lokális modellezési képességeit az attention (figyelmi) mechanizmus (Vaswani et al. 2017) globális modellezési lehetőségeivel. Nyelvmodellként vagy a train-114 saját leiratából (0,55 millió szó) képzett n-gram modellt, vagy ehhez külső forrás, a Magyar Nemzeti Szövegtár (Oravecz et al. 2014) beszélt nyelvi alkorpusza (74 millió szó) hozzáadásával képzett n-gram modellt használtuk. Az n-gram modelleket a KenLM eszközzel1 tanítottuk, karakter alapú akusztikus egységek esetén szó 3-gram modellt, míg Sentence Piece unigram (Kudo–Richardson 2018) szótöredék-alapú akusztikus egységek esetén egyező, szótöredék-alapú 6‑gram modellt. Az n-gram nyelvmodellel kapott hipotézisek újrasúlyozásához egy GPT-2-es struktúrájú (Radford et al. 2019), 161 millió paraméterű, transformer típusú neurális nyelvmodellt is használtunk. Ezt a modellt az NVIDIA NeMo2 eszközével tanítottuk az MNSZ alkorpuszon 10 000-es szótárméretű BPE (Sennrich et al. 2015) szótöredék-egységeken, majd finomhangoltuk a train-114 szöveges leiratokon. Minden esetben az NVIDIA által angol nyelvre előtanított súlyokkal3 inicializáltuk a BEA-Base-en történő neurális akusztikusmodell-tanítást, melynek eredményei a 8. táblázatban láthatóak.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

8. táblázat. CTC tanítású end-to-end beszédfelismerési eredmények nyelvmodellekkel segítve a BEA-Base adatbázison
Kötött beszéd
Spontán beszéd
Akusztikus modell
Nyelvmodell
WER (%)
CER (%)
WER (%)
CER (%)
QuartzNet15x5 struktúra,
34 karakterrel,
18,9 millió paraméterrel
nincs
10,63
2,58
24,87
7,96
saját
5,96
2,0
25,22
9,80
külső
4,83
1,73
19,41
7,52
neurális
4,11
1,02
18,62
6,24
Conformer-medium struktúra, 128 unigram
egységgel, 30,5 millió paraméterrel
nincs
8,17
1,88
19,74
5,89
saját
4,40
1,19
16,95
5,52
külső
4,58
1,24
15,59
5,18
neurális
3,69
0,85
14,51
4,75
Conformer-large struktúra, 128 unigram egységgel,
121 millió paraméterrel
nincs
5,62
1,33
18,05
5,41
saját
3,26
0,92
15,71
5,04
külső
3,16
0,92
14,4
4,82
neurális
2,84
0,55
13,37
4,34
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A (Sentence Piece-féle) unigram és a BPE egységek is olyan szótöredékeket jelentenek, melyek többnyire 1–4 karakterből állnak, és amelyekből hatékonyan össze lehet rakni bármely magyar szót. A Conformer modelleknél tehát az elemi akusztikus egység potenciálisan több beszédhangot is magában foglalhat.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Ahogy a 8. táblázat mutatja, mind a kifinomultabb (és komplexebb) akusztikusmodell-struktúrák, mind a nagyobb és szofisztikáltabb nyelvmodellek jellemzően érdemi javulást eredményeztek külön-külön és együttesen is mindkét teszthalmazon és mindkét metrikánál. Végeredményben a kiindulási (l. 6. táblázat) értékekhez képest kevesebb mint felére sikerült szorítani a hibákat, ami a BEA-Base esetén abszolút rekordnak számít a tanulmány írásának időpontjában. Ámde a spontán és kötött hibaarányok viszonya (arányszáma) lényegileg nem változott a kiinduláshoz képest. A spontán és kötött beszéden mért hibaarányok közötti különbségek csak olyankor csökkentek, ha egyáltalán nem alkalmaztunk (explicit) nyelvmodellt – ami viszont szuboptimális az abszolút pontosságok tekintetében. Másként fogalmazva, a nyelvmodell-valószínűségek hozzáadásával mindig többet javult a kötött beszédfelismerés pontossága, mint a spontán beszédé. Azaz az eredmények sejtetik, hogy a kötött beszéd jobban jósolható, mint a spontán – annak ellenére, hogy a kötött halmaz mondatait garantáltan nem „láthatta” a gépi beszédfelismerő rendszer sem az akusztikus, sem a nyelvmodell tanítása során. Emellett nyilvánvaló, hogy a spontán beszéd akusztikai szempontból is lényegesen nagyobb kihívás a gépek számára (is), mint az olvasott vagy ismételt beszéd. Tegyük hozzá, hogy a gyakorlott felvételvezető előolvasása utáni elismétlés tipikusan megelőzte a munkafolyamat során az adatközlő önálló felolvasását, tehát motorikusan már valamelyest begyakorolt beszédről lehet szó, ahol a megakadásjelenségek kevésbé gyakoriak – szemben a spontán beszéddel.
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave