Általános Nyelvészeti Tanulmányok XXXIV. - 5.2.1. Klasszikus megközelítés

5.2.1. Klasszikus megközelítés

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__198/#m1003anyt34_196_p1 (2026. 07. 23.)

Chicago

Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 07. 23. https://mersz.hu/dokumentum/m1003anyt34__198/#m1003anyt34_196_p1)

APA

Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 07. 23. https://mersz.hu/dokumentum/m1003anyt34__198/#m1003anyt34_196_p1)

BibTeX EndNote Mendeley Zotero

Elsőként a HMM-DNN (Hidden Markov Model – Deep Neural Network: rejtett Markov-modell – mély neurális háló) megközelítésű beszédfelismerési technikát alkalmaztuk, melynek sajátja, hogy jól elkülönülő nyelvi szintek jelennek meg a modellezésben, úgymint: akusztikus modell fonéma- vagy grafémaszinten, kiejtési modell, amely fonéma- vagy grafémaegységeket kapcsol össze ortografikus szóalakokkal, és végül nyelvmodell-szint, mely a felmerülő hipotetikus szósorozatokhoz a priori (tehát az akusztikum ismerete nélküli, előzetes) valószínűséget rendel.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

Graféma alapú akusztikus modell alatt olyan megközelítést értünk, ahol az akusztikai jel és az írott nyelv közötti leképezés közvetlen, azaz egy hangrészlet – és akusztikus, esetleg szöveges környezete – alapján egy vagy több graféma kiírásának valószínűségét becsli a modell. Ha egyszerre csak legfeljebb egy (egyjegyű) graféma valószínűségének becslése történik, akkor karakter (vagy betű) alapú akusztikus modellezésnek is szokás nevezni. Több egymás utáni graféma is képezhet egységet az akusztikus modellben, ezekre szótöredék alapú akusztikus modellekként hivatkozunk később.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

A Kaldi nyílt forráskódú eszköz (Povey et al. 2011) ún. CNN-TDNN-F (Zorila et al. 2019) neurális modelljét használtuk klasszikus 3-gram nyelvmodellekkel párosítva. A további technikai részletek megtalálhatók Mihajlik et al. (2022a,b)-ben; ebben a tanulmányban – a könnyebb áttekinthetőség érdekében – csak a kiértékelő halmazon mért végeredményeket közöljük a 6. táblázatban. A szóhibaarányon (WER: Word Error Rate) felül a karakter-hibaarányt (CER: Character Error Rate) is megadjuk, mivel a magyarhoz hasonló toldalékoló nyelvekre fontos kiegészítő metrikaként szolgál – sőt újabban más (pl. angol) nyelv esetén is gyakori a közlése.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

Ahogy a 6. táblázat mutatja, határozott a kontraszt a kötött (olvasott, ill. ismételt) beszéd, illetve a természetes spontán beszéd felismerési pontosságai között: a hibaarányok utóbbi esetén közel ötször magasabbak. Azért fontos ez az eredmény, mert megmutatja, hogy jelenleg a gépi beszédfelismerési megközelítés mennyire nehezen birkózik meg a természetes spontán beszéddel. Önmagukban az eredményekből nem tudunk arra következtetni, hogy az artikuláció szintjén jelentkezik-e inkább a kihívás, vagy esetleg a szóhasználat szintjén, de egyértelműen látszik a megközelítés kisebb hatékonysága a spontán beszédre nézve. Első ránézésre talán meglepő lehet, hogy graféma – ami itt egyjegyű betűt jelent – alapon inkább jobb eredmények adódnak, mint fonéma alapon, azonban fontos megjegyezni, hogy az akusztikus egységek nem önmagukban, hanem explicit bal kontextussal együtt vannak modellezve, valamint az akusztikus neuronháló ±400 ms kontextusról (implicite) is kap információt. Továbbá nem jellemző, hogy az alapértelmezettől eltérő, speciális kiejtési módú szavak (pl. Dessewffy, Kossuth, Page) szerepelnének a felvételeken.

Jegyzet elhelyezéséhez, kérjük, lépj be.!