5.1. A BEA-Base szerkezete

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A BEA-Base kialakításánál a BEA azon – döntően Transcriberben lejegyezett – részeit használtuk fel, ahol megítélésünk szerint a leginkább egységes, következetes a szöveges lejegyzés. Szemben a nyelvi elemzésre szánt, előzőekben ismertetett részhalmazzal, itt nem az annotáció továbbfejlesztésével kívántuk elérni az egységesítést, hanem ellenkezőleg, az egyszerűsítésével. Például: „s de erről azt sze azt szeretném kérni hogy ezzel kapcsolatban hogy”. Végeredményben kizárólag az egybeszélős, egyértelműen leiratozható szegmenseket hagytuk meg a verbalizált szóalakokkal egyszerű text formátumban, minden más jelölést (kötőjel, nagy kezdőbetű, központozás stb.) eltávolítottunk.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A gépi beszédfelismerési kísérletek megismételhetősége és összehasonlíthatósága érdekében szükséges olyan tanítóhalmazt definiálni (train-114), amely elég nagy, de mind a beszélőket, mind a szövegtartalmat nézve független a tesztadatoktól. A validáló vagy fejlesztési (dev) halmaz szerepe, hogy a beszédfelismerő rendszer ún. hiperparamétereit (a neurális hálózat méretét, jellegét) mind a tanító, mind a végleges kiértékelő halmaztól független adatokkal tudjuk optimalizálni. A kiértékelő (eval) halmaz esetén fontos, hogy minél reprezentatívabb legyen, ugyanakkor ne vegyen el túl sok adatot a tanítástól. Végül, a beszéd jellegétől függően a teszthalmazokat két csoportra bontottuk: spontán és félspontán felvételek (spont), illetve olvasott vagy ismételt felvételek (repet). A BEA-Base részhalmazai és főbb kvantitatív jellemzőik a 3. táblázatban olvashatók.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

3. táblázat: A BEA-Base részhalmazainak számszerű jellemzése
train-114
dev-repet
dev-spont
eval-repet
eval-spont
hossz (óra)
71,2
0,65
4,02
0,95
4,91
beszédszakaszok száma
76 881
568
4 893
858
5 693
betűk száma
3 104 165
28 467
154 994
43 448
197 738
szószám
555 322
4 110
27 939
6 229
35 178
tanítóhalmaz szótárán kívüli
szavak aránya (%)
2,0
7,3
1,4
7,9
beszélők száma
114
10
10
16
16
női/férfi beszélőarány
3:2
1:1
1:1
1:1
1:1
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A megfelelő beszédfelismerési eredményekhez a tanítóhalmaz reprezentativitása a legfontosabb. Ezért ennek tartalmát részletesebben is bemutatjuk, a 4. táblázatban.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

4. táblázat: A train-114 tanítóhalmaz százalékos összetétele felvételi egységek és beszélők szerint
SPK
EXP
DP
Mondatismétlés
0
0
0
Mondatfelolvasás
0
0
0
Interjú
18,64
2,75
0
Vélemény
14,40
4,58
0
Növény + Varkocs
6,87
1,43
0
Társalgás
19,93
17,95
7,66
Szövegfelolvasás
5,34
0,39
0
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Látható, hogy a kijelölt tanítóhalmazban nem szerepel a rögzített mondathalmaz felolvasása és ismétlése sem. Erre azért volt szükség, hogy a teszthalmazok függetlensége biztosított legyen, azaz a beszédfelismerő modellek az adott, ismétlődő fonológiai kontextusra ne tanuljanak rá. A főbeszélők magas, 100 feletti száma kedvező a képzendő akusztikus modell „beszélőfüggetlensége” szempontjából, azonban nyilvánvalóan nem lényegtelen az egyes beszélők hozzájárulása. Ezért az 1. ábrán elemeztük a 114 főbeszélő tanítóhalmazba került beszédének hosszát. Látható, hogy bár az eloszlás nem egyenletes, mégis csak kevés beszélő van túlreprezentálva, és minden adatközlő hozzájárulása érdemi.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A fejlesztői és kiértékelési halmazok összetétele az 5. táblázatban látható. Csak a főbeszélő (SPK) hangfelvételeit használjuk, mivel a felvételvezető és a társalgópartner hangja már szerepel a tanítóadatok között. A válogatott felvételek szövegfelolvasást azért nem tartalmaznak, mert a tanítóhalmazban már ugyanezen szövegkorpusz felolvasása megtalálható, emiatt meghamisítaná a beszédfelismerési eredményeket.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

1. ábra: A train-114 tanítóhalmazba került főbeszélők beszédhosszainak eloszlása
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

5. táblázat: A teszthalmazok százalékos összetétele
dev-repet
dev-spont
eval-repet
eval-spont
Mondatismétlés
45,3
0
49,83
0
Mondatfelolvasás
54,7
0
50,16
0
Interjú
0
37,17
0
32,48
Vélemény
0
17,73
0
18,43
Növény + Varkocs
0
11,96
0
15,95
Társalgás
0
33,11
0
33,12
Szövegfelolvasás
0
0
0
0
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave