5.2.3. Neurális megközelítés nyelvmodellekkel segítve
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p1 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p1)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p1)
Az előző kísérletben – a klasszikus megközelítéssel ellentétben – nem használtunk explicit nyelvmodellt, amely segítene a hasonló hangzású variánsok közül a nyelvileg valószínűbbet kiválasztani a felismerési folyamat során. Ezt a következő kísérletekben pótoltuk, egyben kiterjesztettük a vizsgálatokat az ún. Conformer enkóder struktúrára (Gulati et al. 2020), amely egyesíti a konvolúciós neurális hálózatok (LeCun–Bengio 1995) lokális modellezési képességeit az attention (figyelmi) mechanizmus (Vaswani et al. 2017) globális modellezési lehetőségeivel. Nyelvmodellként vagy a train-114 saját leiratából (0,55 millió szó) képzett n-gram modellt, vagy ehhez külső forrás, a Magyar Nemzeti Szövegtár (Oravecz et al. 2014) beszélt nyelvi alkorpusza (74 millió szó) hozzáadásával képzett n-gram modellt használtuk. Az n-gram modelleket a KenLM eszközzel1 tanítottuk, karakter alapú akusztikus egységek esetén szó 3-gram modellt, míg Sentence Piece unigram (Kudo–Richardson 2018) szótöredék-alapú akusztikus egységek esetén egyező, szótöredék-alapú 6‑gram modellt. Az n-gram nyelvmodellel kapott hipotézisek újrasúlyozásához egy GPT-2-es struktúrájú (Radford et al. 2019), 161 millió paraméterű, transformer típusú neurális nyelvmodellt is használtunk. Ezt a modellt az NVIDIA NeMo2 eszközével tanítottuk az MNSZ alkorpuszon 10 000-es szótárméretű BPE (Sennrich et al. 2015) szótöredék-egységeken, majd finomhangoltuk a train-114 szöveges leiratokon. Minden esetben az NVIDIA által angol nyelvre előtanított súlyokkal3 inicializáltuk a BEA-Base-en történő neurális akusztikusmodell-tanítást, melynek eredményei a 8. táblázatban láthatóak.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_table_61 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_table_61)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_table_61)
8. táblázat. CTC tanítású end-to-end beszédfelismerési eredmények nyelvmodellekkel segítve a BEA-Base adatbázison
Kötött beszéd |
Spontán beszéd | ||||
Akusztikus modell | Nyelvmodell |
WER (%) |
CER (%) |
WER (%) |
CER (%) |
QuartzNet15x5 struktúra, 34 karakterrel, 18,9 millió paraméterrel |
nincs |
10,63 |
2,58 |
24,87 |
7,96 |
saját |
5,96 |
2,0 |
25,22 |
9,80 | |
külső |
4,83 |
1,73 |
19,41 |
7,52 | |
neurális |
4,11 |
1,02 |
18,62 |
6,24 | |
Conformer-medium struktúra, 128 unigram egységgel, 30,5 millió paraméterrel | nincs | 8,17 |
1,88 |
19,74 |
5,89 |
saját |
4,40 |
1,19 |
16,95 |
5,52 | |
külső |
4,58 |
1,24 |
15,59 |
5,18 | |
neurális |
3,69 |
0,85 |
14,51 |
4,75 | |
Conformer-large struktúra, 128 unigram egységgel, 121 millió paraméterrel |
nincs |
5,62 |
1,33 |
18,05 |
5,41 |
saját |
3,26 |
0,92 |
15,71 |
5,04 | |
külső |
3,16 |
0,92 |
14,4 |
4,82 | |
neurális |
2,84 |
0,55 |
13,37 |
4,34 | |
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p4 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p4)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p4)
A (Sentence Piece-féle) unigram és a BPE egységek is olyan szótöredékeket jelentenek, melyek többnyire 1–4 karakterből állnak, és amelyekből hatékonyan össze lehet rakni bármely magyar szót. A Conformer modelleknél tehát az elemi akusztikus egység potenciálisan több beszédhangot is magában foglalhat.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p5 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p5)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p5)
Ahogy a 8. táblázat mutatja, mind a kifinomultabb (és komplexebb) akusztikusmodell-struktúrák, mind a nagyobb és szofisztikáltabb nyelvmodellek jellemzően érdemi javulást eredményeztek külön-külön és együttesen is mindkét teszthalmazon és mindkét metrikánál. Végeredményben a kiindulási (l. 6. táblázat) értékekhez képest kevesebb mint felére sikerült szorítani a hibákat, ami a BEA-Base esetén abszolút rekordnak számít a tanulmány írásának időpontjában. Ámde a spontán és kötött hibaarányok viszonya (arányszáma) lényegileg nem változott a kiinduláshoz képest. A spontán és kötött beszéden mért hibaarányok közötti különbségek csak olyankor csökkentek, ha egyáltalán nem alkalmaztunk (explicit) nyelvmodellt – ami viszont szuboptimális az abszolút pontosságok tekintetében. Másként fogalmazva, a nyelvmodell-valószínűségek hozzáadásával mindig többet javult a kötött beszédfelismerés pontossága, mint a spontán beszédé. Azaz az eredmények sejtetik, hogy a kötött beszéd jobban jósolható, mint a spontán – annak ellenére, hogy a kötött halmaz mondatait garantáltan nem „láthatta” a gépi beszédfelismerő rendszer sem az akusztikus, sem a nyelvmodell tanítása során. Emellett nyilvánvaló, hogy a spontán beszéd akusztikai szempontból is lényegesen nagyobb kihívás a gépek számára (is), mint az olvasott vagy ismételt beszéd. Tegyük hozzá, hogy a gyakorlott felvételvezető előolvasása utáni elismétlés tipikusan megelőzte a munkafolyamat során az adatközlő önálló felolvasását, tehát motorikusan már valamelyest begyakorolt beszédről lehet szó, ahol a megakadásjelenségek kevésbé gyakoriak – szemben a spontán beszéddel.
3 Az angol nyelven előtanított modellek letölthetők innen: https://catalog.ngc.nvidia.com/models