4. Annotációk nyelvi elemzésre

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A jelenleg zajló munkálatok célja az összes BEA-felvétel egységes szempontrendszer szerinti idővetemített annotációjának elkészítése szakasz-, szó- és hangszinten. Ennek keretében kidolgoztuk az új irányelveket, és a meglévő TextGrid-lejegyzéseket elkezdtük ezen formára átdolgozni. A következő lépések a csak trs-ben annotált, a csak doc-ban lejegyzett és a még lejegyzetlen felvételeknek ugyancsak az egységes rendszer szerinti textgrides annotációja.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az annotációt úgy terveztük meg, hogy a nyelvészeti és a beszédtechnológiai kutatások számára is jól használható legyen. Több lépcsőben tervezzük közreadni, hogy a már egységesített fájlokhoz minél előbb hozzáférhessenek a kutatók. A készülő annotáció kézi szakaszszintű (korábbi kézi lejegyzés átdolgozása, illetve gépi felismerés eredménye alapján javított), automatikus szó- és hangszintű leiratokat fog tartalmazni, beszélőnként külön-külön szinteken (tierekben). A tierek beszélőkódot tartalmaznak: SPK (adatközlő), EXP (felvételvezető), DP (társalgópartner). A néma szünetet és a hallgatást nem jelöljük, azaz üres címkét kap. A korábbi TextGridben készült annotációval szemben e lejegyzés helyesírásközelibb. Ez azt jelenti, hogy eddig a kötőjelek, nagybetűk, írásjelek más funkciókat töltöttek be, ezért ezeket nem a helyesírás szerint alkalmazták, míg ebben a lejegyzésben ezen funkciókat más jelöléssel oldjuk meg. Ennek következtében pl. a kötőjeles szavakban megjelennek a kötőjelek, a központozás szerint vessző, pont, felkiáltójel és kérdőjel fog szerepelni, illetve a tulajdonnevek nagybetűit alkalmazni fogjuk. A nagybetű elhagyása egy esetben történik meg: Mivel a betűző ejtést nagybetűvel jelöljük (tehát pl. T alakú a lakás), ezért az olyan betűszókban, amelyeket összeolvasunk, csak a kezdőbetűt hagyjuk meg nagynak (pl. Koki, Mol). Ha betűzve olvassuk, megtartjuk a nagybetűket (pl. MTA, ELKH ).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A lejegyzésben használt jelöléseket és funkciójukat az 1. táblázat tartalmazza. Vannak páros és egyedül megjelenő jelölések. Páros például a kérdés kezdetén és végén megjelenő <q> – </q>. Ha kérdés hangzik el, annak a kezdetét és végét jelöli függetlenül a beszédszakasz határától. Azaz ha a beszélő a kérdés előtt vagy után nem tart szünetet, akkor nem szakaszhatárra esik a jelpár. A <laugh> használata is azonos módon történik, nevetve beszélést jelöl. A jelpárok között az elhangzó szöveg lejegyzése található.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A számokat betűvel írjuk, pl. ezerkétszáz. A nagyon rövid zajokat nem jelöljük, a hosszabbakat egy külön NOI nevű tieren <noi> címkével látjuk el. Az érthetetlen beszéd jele <unint>. Az egyszerre beszélt időtartamokban az érthető beszédet lejegyezzük a megfelelő beszélő tierjében. Így ezek intervallumcímkéi átfednek időben a külön szinteken.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

1. táblázat: A BEA módosított jelölésrendszere
Jelölés
Funkció
Példa
<q> … </q>
kérdés kezdete és vége
<q> ezt te hogy látod </q> <q> szerinted ez
így helytálló </q> mert én azt gondolom
-
helyesírási használat
bel- és külkereskedelem, bortermelő és -érté-
kesítő szövetkezet, látod-e
--
megakadásjelenség: szótöredék, szünet a szóban
ke-- sajtot vettem, máz lija volt
<laugh>
nevetés (beszéd nélkül)
<laugh> … </laugh>
nevetve beszélés
[…]
eredeti alak téves vagy írott
alak eltérő kiejtés esetén (pl. idegen szó)
szerklény [szekrény], kvescsön [question],
tévékettő [TV2], ikszedszerre [x-edszerre], kosut [Kossuth], daun-kóros [Down-kóros]
nagybetűk
kibetűzés
T mint Tamás, MTA, de: Koki
<noise>
zaj
<unint>
érthetetlen beszéd
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Hangkiesesést, hiátustöltést olyan esetben sem jelölünk, amikor nem várt helyen jelenik meg (pl. teja lejegyezve tea). A legtöbb nem sztenderd formában használt alakot a sztenderd formában jegyezzük le, pl. a mé’, mér’, me’, mer’ ejtés esetében is miért és mert alakot jelölünk. Hasonlóan a -ban, -ben, -ért toldalékok esetében megjelenő -ba, -be és -ér’ hangsorokat is a teljes toldalék leírásával tartjuk helyesnek jelölni. Vannak azonban olyan ejtett formák, amelyeket lexikalizáltként fogadunk el, azaz a kiejtett változatot jelöljük. Ezeket a 2. táblázat tartalmazza. Ilyen például az aszongya (’azt mondja’), nemtom (’nem tudom’), lécci (’légy szíves’)

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az annotációk mellett az egyes felvételekhez külön-külön egy-egy metaadatfájl is fog tartozni, illetve egy, az összes felvételhez tartozó metaadatokat tartalmazó táblázat készítése is folyamatban van. A felvételi körülményeket (felvételvezető és társalgó partner kódolt megadása, a véleménykifejtő és társalgási rész témakörei) és a beszélő nemét és korát a felvételre vonatkozó technikai adatokkal tüntetjük fel (rendelkezésre álló felvételi egységek, aktuálisan elérhető annotációk és azok szintjei).
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

2. táblázat: Elfogadott alternatív ejtésű (gyakori alak + variánsok), azaz lexikalizáltnak tekintett alakok (példák)
Gyakori alak
Variánsok
Eredeti alak
aszond/gy+rag
aszondom, aszondod, aszongya, aszongyák, aszontál
azt mond+RAG
asszem
azt hiszem
aszta
azta
azt a!
kábé
köbö
körülbelül
lécci
légy szíves
mittomén
mit tudom én
naon
nagyon
nemtom
nem tudom
pölö
például
satöbbi
STB (ejtve: estébé, de a betűző ejtést nagybetűvel jelöljük)
s a többi
se
sem
sose
sosem
sohasem
szal
szóval
szentem
szerintem
tom
tudom
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave