5.1. A BEA-Base szerkezete
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p1 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p1)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p1)
A BEA-Base kialakításánál a BEA azon – döntően Transcriberben lejegyezett – részeit használtuk fel, ahol megítélésünk szerint a leginkább egységes, következetes a szöveges lejegyzés. Szemben a nyelvi elemzésre szánt, előzőekben ismertetett részhalmazzal, itt nem az annotáció továbbfejlesztésével kívántuk elérni az egységesítést, hanem ellenkezőleg, az egyszerűsítésével. Például: „s de erről azt sze azt szeretném kérni hogy ezzel kapcsolatban hogy”. Végeredményben kizárólag az egybeszélős, egyértelműen leiratozható szegmenseket hagytuk meg a verbalizált szóalakokkal egyszerű text formátumban, minden más jelölést (kötőjel, nagy kezdőbetű, központozás stb.) eltávolítottunk.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p2 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p2)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p2)
A gépi beszédfelismerési kísérletek megismételhetősége és összehasonlíthatósága érdekében szükséges olyan tanítóhalmazt definiálni (train-114), amely elég nagy, de mind a beszélőket, mind a szövegtartalmat nézve független a tesztadatoktól. A validáló vagy fejlesztési (dev) halmaz szerepe, hogy a beszédfelismerő rendszer ún. hiperparamétereit (a neurális hálózat méretét, jellegét) mind a tanító, mind a végleges kiértékelő halmaztól független adatokkal tudjuk optimalizálni. A kiértékelő (eval) halmaz esetén fontos, hogy minél reprezentatívabb legyen, ugyanakkor ne vegyen el túl sok adatot a tanítástól. Végül, a beszéd jellegétől függően a teszthalmazokat két csoportra bontottuk: spontán és félspontán felvételek (spont), illetve olvasott vagy ismételt felvételek (repet). A BEA-Base részhalmazai és főbb kvantitatív jellemzőik a 3. táblázatban olvashatók.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_56 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_56)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_56)
3. táblázat: A BEA-Base részhalmazainak számszerű jellemzése
train-114 | dev-repet |
dev-spont | eval-repet |
eval-spont | |
hossz (óra) | 71,2 | 0,65 | 4,02 | 0,95 | 4,91 |
beszédszakaszok száma | 76 881 | 568 | 4 893 |
858 |
5 693 |
betűk száma | 3 104 165 | 28 467 | 154 994 |
43 448 |
197 738 |
szószám |
555 322 |
4 110 |
27 939 |
6 229 |
35 178 |
tanítóhalmaz szótárán kívüli szavak aránya (%) | – |
2,0 |
7,3 |
1,4 |
7,9 |
beszélők száma | 114 | 10 | 10 | 16 | 16 |
női/férfi beszélőarány | 3:2 | 1:1 |
1:1 |
1:1 |
1:1 |
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p5 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p5)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p5)
A megfelelő beszédfelismerési eredményekhez a tanítóhalmaz reprezentativitása a legfontosabb. Ezért ennek tartalmát részletesebben is bemutatjuk, a 4. táblázatban.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_57 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_57)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_57)
4. táblázat: A train-114 tanítóhalmaz százalékos összetétele felvételi egységek és beszélők szerint
SPK |
EXP |
DP | |
Mondatismétlés |
0 |
0 |
0 |
Mondatfelolvasás |
0 |
0 |
0 |
Interjú |
18,64 |
2,75 |
0 |
Vélemény |
14,40 |
4,58 |
0 |
Növény + Varkocs | 6,87 | 1,43 | 0 |
Társalgás |
19,93 |
17,95 |
7,66 |
Szövegfelolvasás |
5,34 |
0,39 |
0 |
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p8 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p8)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p8)
Látható, hogy a kijelölt tanítóhalmazban nem szerepel a rögzített mondathalmaz felolvasása és ismétlése sem. Erre azért volt szükség, hogy a teszthalmazok függetlensége biztosított legyen, azaz a beszédfelismerő modellek az adott, ismétlődő fonológiai kontextusra ne tanuljanak rá. A főbeszélők magas, 100 feletti száma kedvező a képzendő akusztikus modell „beszélőfüggetlensége” szempontjából, azonban nyilvánvalóan nem lényegtelen az egyes beszélők hozzájárulása. Ezért az 1. ábrán elemeztük a 114 főbeszélő tanítóhalmazba került beszédének hosszát. Látható, hogy bár az eloszlás nem egyenletes, mégis csak kevés beszélő van túlreprezentálva, és minden adatközlő hozzájárulása érdemi.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p9 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p9)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_194_p9)
A fejlesztői és kiértékelési halmazok összetétele az 5. táblázatban látható. Csak a főbeszélő (SPK) hangfelvételeit használjuk, mivel a felvételvezető és a társalgópartner hangja már szerepel a tanítóadatok között. A válogatott felvételek szövegfelolvasást azért nem tartalmaznak, mert a tanítóhalmazban már ugyanezen szövegkorpusz felolvasása megtalálható, emiatt meghamisítaná a beszédfelismerési eredményeket.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_fig_104 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_fig_104)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_fig_104)
1. ábra: A train-114 tanítóhalmazba került főbeszélők beszédhosszainak eloszlása
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Mády Katalin–Markó Alexandra (szerk.) (2023): Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634548645 Letöltve: https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_58 (2026. 05. 20.)
Chicago
Mády Katalin, Markó Alexandra, szerk. 2023. Általános Nyelvészeti Tanulmányok XXXIV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634548645 (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_58)
APA
Mády K., Markó A. (szerk.) (2023). Általános Nyelvészeti Tanulmányok XXXIV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634548645. (Letöltve: 2026. 05. 20. https://mersz.hu/dokumentum/m1003anyt34__196/#m1003anyt34_table_58)
5. táblázat: A teszthalmazok százalékos összetétele
dev-repet | dev-spont |
eval-repet | eval-spont | |
Mondatismétlés |
45,3 |
0 |
49,83 |
0 |
Mondatfelolvasás |
54,7 |
0 |
50,16 |
0 |
Interjú |
0 |
37,17 |
0 |
32,48 |
Vélemény |
0 |
17,73 |
0 |
18,43 |
Növény + Varkocs | 0 | 11,96 | 0 | 15,95 |
Társalgás |
0 |
33,11 |
0 |
33,12 |
Szövegfelolvasás |
0 |
0 |
0 |
0 |
