3.2. Jelenleg elérhető annotációk

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A jelenlegi, egységes lejegyzéseket előállító munka megkezdése előtt 114 TextGrid, 179 trs és 163 doc formátumú lejegyzés készült. Ebből 16 felvételhez áll rendelkezésre TextGrid és trs; 29-hez TextGrid és doc; 48-hoz doc és trs, és 28 fájlhoz mindháromféle lejegyzés. Összesen 217 felvételhez áll rendelkezésre legalább egyféle szöveges változat. A lejegyzések alapegysége a doc esetében a beszédforduló, tehát a beszélőváltások, illetve az egyszerre beszélések határai, míg a másik két esetben a beszédszakasz, azaz a szünettől szünetig terjedő beszéd. A beszédszakasz-szünet elhatárolását a TextGrid és a trs formátumú lejegyzésben részben eltérően kell értelmezni. Míg a TextGridben bármilyen rövid szünet szünetnek számít (zöngétlen zárral kezdődő beszédhang esetében 30 ms-ot kellett a szakaszhoz tartozóként jelölni), addig a trs formátumú lejegyzésekben a szünetnek meghatározott minimális hossza volt. Mindhárom lejegyzés alapértelmezésben követi a helyesírást a szóírás tekintetében, pl. zöldség, nem zölcség. A megakadásjelenségeket, tulajdonneveket és az abból képzett alakokat viszont eltérő módon kezelték.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az MS Wordben készült lejegyzések fordulószintűek. Nagybetűt és központozást nem tartalmaz a szöveg, de ezen kívül követi a helyesírást. Felkiáltójel szerepel a lejegyzésben, ez a hangos levegővételt jelöli. A lejegyző által észlelt szüneteket négyzetek jelzik (1). A megakadásjelenségek félkövérrel szedettek, és ha a szándékolt alak kitalálható, [ ]-ben jelenik meg (2). Az adatközlőt A, a felvételkészítőt T1, a harmadik, azaz társalgópartnert pedig T2 jelöli. A doc-ban készült lejegyzések útmutatóját Gósy 2008-as tanulmánya tartalmazza.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

(1)
ühüm az ügyfeleknek kompromisszumot kellett kötniük
(2)
a tulipánágyások gyomlálásával töl [töltötte] ütötte el az időt
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A TextGrid lejegyzések főként Praat szoftverben történő felhasználáshoz készültek (részletes bemutatás: Gyarmathy et al. 2014). Ezek egy, két vagy három annotációs szintet (ún. tier-t) tartalmaznak beszélőnként. A beszédszakasz szintje minden esetben annotálva van minden résztvevőnél, külön sorban. IK-tier: interjúkészítő, B-tier: az adatközlő (ti. a beszélő), TP-tier: társalgó partner. A különféle nembeszéd-jelenségeket nagybetűs szóval vagy rövidítéssel jelölték. Ilyen pl. a SIL mint néma szünet, az Ö/ÖM/M mint hezitálás, a KÖH mint köhögés, vagy épp az EBNEV, amikor az egyik fő beszél, a másik(ak) pedig nevet(nek). Az EB az egyszerre beszélést jelöli.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A trs lejegyzések a Transcriber szoftverben való felhasználásra készültek, a doc formátumhoz hasonlóan A, T1 és T2 kódokkal (adatközlő, felvételvezető, társalgó partner). A másik eltérés, hogy a lejegyzés ugyan beszédszakaszszinten történt, de a szünetek minimális hossza meghatározott volt. A Transcriberhez készült annotációkat Gyarmathy és Neuberger 2011-es tanulmánya ismerteti.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A Transcriber szoftverben készült annotációk egy részéhez, 133 felvételhez a BME munkatársai 2020-ban automatikus szó- és hangszintű annotációt készítettek, amelyek TextGrid formátumban elérhetőek. Ezek közül 34 darabhoz készült szakaszszintű kézi annotáció a fent leírt praatos lejegyzés keretében. Ezek esetében a kézi beszédszakasz- és az automatikus szó- és hangszintű annotációkat összeillesztettük, azaz együttesen is elérhetőek. Ezek egy-egy tierben tartalmazzák az automatikus szegmentálás szó-, illetve hangszintű eredményeit. Ezekben a szünetet # jelöli, a hosszú mássalhangzókat pedig a hangszintű annotációban egyetlen betű, nem dupla mássalhangzó. A tulajdonnevek nagybetűvel kezdődnek, de ezt leszámítva a lejegyzés fonémajelölő. A szótöredékek és az idegen vagy hagyományőrző helyesírású szavak toldalékolt alakjában kötőjelet alkalmaztak, pl. kekereskedő, Vörösmarty-ban, emellett a helyesírásban a többszörös szóösszetételekben alkalmazandó kötőjel is helyesírás szerint jelenik meg ezekben a leiratokban, pl. növényvédőszer-tartalmát.
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave