Általános Nyelvészeti Tanulmányok XXXIV. - 5. Annotáció és strukturálás gépi tanuláshoz

Mády Katalin, Markó Alexandra (szerk.): Általános Nyelvészeti Tanulmányok XXXIV. • Fonetikai tanulmányok

›

A BEA továbbfejlesztése és alkalmazása kontrasztív gépi beszédfelismerési kísérletekre

›

5. Annotáció és strukturálás gépi tanuláshoz

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__195/#m1003anyt34_193_p1 (2026. 07. 23.)

Chicago

Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 07. 23. https://mersz.hu/dokumentum/m1003anyt34__195/#m1003anyt34_193_p1)

APA

Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 07. 23. https://mersz.hu/dokumentum/m1003anyt34__195/#m1003anyt34_193_p1)

BibTeX EndNote Mendeley Zotero

A sokszáz beszélőtől felvett, lejegyzett változatos és nagyrészt spontán beszéd kiválóan alkalmas különféle gépi tanuló – elsősorban beszédfelismerő, leiratozó – rendszerek betanítására, tesztelésére. Ezen rendszerek esetén általában nem szükséges a problémás szakaszok (pl. nem érthető vagy párhuzamos beszéd egy csatornán) pontos lejegyzése, ezeket praktikusabb kihagyni inkább a tanításból. Hasonlóan, a többszintű, nyelvészetileg igényes annotáció sem szükséges, mivel a modern beszédfelismerő rendszerek tanítása számára csak a konkrét elhangzott beszéd verbalizált (szövegszerű, számokat és egyéb speciális karaktereket nem tartalmazó) leirata és a hozzá tartozó hanganyag szolgál bemenő adatként. A beszélő személy megjelölése is hasznos, sőt beszélőfelismerő rendszereknél nélkülözhetetlen, azonban ezt elég a „problémamentes” szegmensekre fájlszinten rögzíteni, nem szükséges az annotáció szintjén, mert a zavaros, gyors, átlapolódó beszédrészeket nem használjuk alapértelmezésben. Jellemző még a gépi beszédfelismerő rendszerek tanítására, hogy néhány másodperces, minimum 200 ms hosszú beszédszünetekkel határolt beszédrészletekkel történik, így az ilyen hosszakra darabolást is el kell végezni, ami tipikusan már korábban, más hanganyagon betanított beszédfelismerő rendszer alkalmazásával valósítható meg.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hivatkozások

Válaszd ki a számodra megfelelő hivatkozásformátumot:

Harvard

Chicago

APA

BibTeX EndNote Mendeley Zotero

A fenti megfontolások, valamint az ingyenesen elérhető magyar nyelvű beszédleiratozó tanítására és tesztelésére alkalmas adatbázisok szűkössége miatt létrehoztunk egy BEA-Base1 nevű partíciót a BEA adatbázison belül. A BEA-Base célja, hogy lehetővé tegye a kutatók számára, hogy azonos tanító, validáló és kiértékelő adatokon korszerű beszédfelismerési módszereket összehasonlítsanak. Az adatbázisról és a kezdeti gépi beszédfelismerési eredményekről beszámoltunk (Mihajlik et al. 2022a,b). Alább összefoglaló jelleggel vázoljuk a gépi tanulási részadatbázis felépítését, és részletezzük azon adatokat, melyek az előző publikációkba terjedelmi korlátok miatt nem fértek be, valamint ismertetjük a legújabb eredményeket.

5.1. A BEA-Base szerkezete

5.2. Gépi beszédfelismerési eredmények a BEA-Base adathalmazokon

1 Kutatási célokra regisztráció után letölthető innen: https://phon.nytud.hu/bea/

Kivonat

fullscreenclose

printsave