Általános Nyelvészeti Tanulmányok XXXIV. - 5.2.3. Neurális megközelítés nyelvmodellekkel segítve

5.2.3. Neurális megközelítés nyelvmodellekkel segítve

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p1 (2026. 07. 23.)

Chicago

Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 07. 23. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p1)

APA

Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 07. 23. https://mersz.hu/dokumentum/m1003anyt34__200/#m1003anyt34_198_p1)

BibTeX EndNote Mendeley Zotero

Az előző kísérletben – a klasszikus megközelítéssel ellentétben – nem használtunk explicit nyelvmodellt, amely segítene a hasonló hangzású variánsok közül a nyelvileg valószínűbbet kiválasztani a felismerési folyamat során. Ezt a következő kísérletekben pótoltuk, egyben kiterjesztettük a vizsgálatokat az ún. Conformer enkóder struktúrára (Gulati et al. 2020), amely egyesíti a konvolúciós neurális hálózatok (LeCun–Bengio 1995) lokális modellezési képességeit az attention (figyelmi) mechanizmus (Vaswani et al. 2017) globális modellezési lehetőségeivel. Nyelvmodellként vagy a train-114 saját leiratából (0,55 millió szó) képzett n-gram modellt, vagy ehhez külső forrás, a Magyar Nemzeti Szövegtár (Oravecz et al. 2014) beszélt nyelvi alkorpusza (74 millió szó) hozzáadásával képzett n-gram modellt használtuk. Az n-gram modelleket a KenLM eszközzel1 tanítottuk, karakter alapú akusztikus egységek esetén szó 3-gram modellt, míg Sentence Piece unigram (Kudo–Richardson 2018) szótöredék-alapú akusztikus egységek esetén egyező, szótöredék-alapú 6‑gram modellt. Az n-gram nyelvmodellel kapott hipotézisek újrasúlyozásához egy GPT-2-es struktúrájú (Radford et al. 2019), 161 millió paraméterű, transformer típusú neurális nyelvmodellt is használtunk. Ezt a modellt az NVIDIA NeMo2 eszközével tanítottuk az MNSZ alkorpuszon 10 000-es szótárméretű BPE (Sennrich et al. 2015) szótöredék-egységeken, majd finomhangoltuk a train-114 szöveges leiratokon. Minden esetben az NVIDIA által angol nyelvre előtanított súlyokkal3 inicializáltuk a BEA-Base-en történő neurális akusztikusmodell-tanítást, melynek eredményei a 8. táblázatban láthatóak.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

8. táblázat. CTC tanítású end-to-end beszédfelismerési eredmények nyelvmodellekkel segítve a BEA-Base adatbázison

		Kötött beszéd		Spontán beszéd
Akusztikus modell	Nyelvmodell	WER (%)	CER (%)	WER (%)	CER (%)
QuartzNet15x5 struktúra, 34 karakterrel, 18,9 millió paraméterrel	nincs	10,63	2,58	24,87	7,96
	saját	5,96	2,0	25,22	9,80
	külső	4,83	1,73	19,41	7,52
	neurális	4,11	1,02	18,62	6,24
Conformer-medium struktúra, 128 unigram egységgel, 30,5 millió paraméterrel	nincs	8,17	1,88	19,74	5,89
	saját	4,40	1,19	16,95	5,52
	külső	4,58	1,24	15,59	5,18
	neurális	3,69	0,85	14,51	4,75
Conformer-large struktúra, 128 unigram egységgel, 121 millió paraméterrel	nincs	5,62	1,33	18,05	5,41
	saját	3,26	0,92	15,71	5,04
	külső	3,16	0,92	14,4	4,82
	neurális	2,84	0,55	13,37	4,34

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

A (Sentence Piece-féle) unigram és a BPE egységek is olyan szótöredékeket jelentenek, melyek többnyire 1–4 karakterből állnak, és amelyekből hatékonyan össze lehet rakni bármely magyar szót. A Conformer modelleknél tehát az elemi akusztikus egység potenciálisan több beszédhangot is magában foglalhat.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

Ahogy a 8. táblázat mutatja, mind a kifinomultabb (és komplexebb) akusztikusmodell-struktúrák, mind a nagyobb és szofisztikáltabb nyelvmodellek jellemzően érdemi javulást eredményeztek külön-külön és együttesen is mindkét teszthalmazon és mindkét metrikánál. Végeredményben a kiindulási (l. 6. táblázat) értékekhez képest kevesebb mint felére sikerült szorítani a hibákat, ami a BEA-Base esetén abszolút rekordnak számít a tanulmány írásának időpontjában. Ámde a spontán és kötött hibaarányok viszonya (arányszáma) lényegileg nem változott a kiinduláshoz képest. A spontán és kötött beszéden mért hibaarányok közötti különbségek csak olyankor csökkentek, ha egyáltalán nem alkalmaztunk (explicit) nyelvmodellt – ami viszont szuboptimális az abszolút pontosságok tekintetében. Másként fogalmazva, a nyelvmodell-valószínűségek hozzáadásával mindig többet javult a kötött beszédfelismerés pontossága, mint a spontán beszédé. Azaz az eredmények sejtetik, hogy a kötött beszéd jobban jósolható, mint a spontán – annak ellenére, hogy a kötött halmaz mondatait garantáltan nem „láthatta” a gépi beszédfelismerő rendszer sem az akusztikus, sem a nyelvmodell tanítása során. Emellett nyilvánvaló, hogy a spontán beszéd akusztikai szempontból is lényegesen nagyobb kihívás a gépek számára (is), mint az olvasott vagy ismételt beszéd. Tegyük hozzá, hogy a gyakorlott felvételvezető előolvasása utáni elismétlés tipikusan megelőzte a munkafolyamat során az adatközlő önálló felolvasását, tehát motorikusan már valamelyest begyakorolt beszédről lehet szó, ahol a megakadásjelenségek kevésbé gyakoriak – szemben a spontán beszéddel.

1 https://kheafield.com/code/kenlm/

2 https://github.com/NVIDIA/NeMo

3 Az angol nyelven előtanított modellek letölthetők innen: https://catalog.ngc.nvidia.com/models

5.2.3. Neurális megközelítés nyelvmodellekkel segítve

Hivatkozások

Hivatkozások

Hivatkozások

Hivatkozások

Kivonat