2. Hasonló, magyar nyelvű beszélt nyelvi adatbázisok

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az elmúlt évtizedekben jelentősen megnőtt a magyar nyelvű beszédadatbázisok száma. Ugyanakkor ezen adatbázisok egy része – eredeti céljának megfelelően – csak rögzített, felolvasott kifejezéseket és mondatokat tartalmazott, mint például az első, nemzetközi szabványok alapján készült, magyar nyelvi anyagot is tartalmazó BABEL (Vicsi–Vig 1998), illetve a telefonon keresztül felvett, nagymennyiségű hanganyagot magában foglaló SpeechDat-E és MTBA (Pollák et al. 2000; Vicsi et al. 2002).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A felolvasott szövegekre épülők mellett több olyan magyar nyelvű adatbázis is készült, amelyek részben vagy egészben spontán beszédet is tartalmaztak. A BUSZI magnetofonra felvett, spontán társalgásokat tartalmazó beszédadatbázis; létrehozásának elsődleges céljai szociolingvisztikai vizsgálatok voltak (Váradi 2003). A BUSZI-hoz hasonlóan több, konkrét nyelvészeti területhez kapcsolódó céllal létrejött spontán beszédadatbázist is megalkottak az elmúlt időszakban. Ilyen például az inferencialitás vizsgálata céljából diktafonnal rögzített Kivi-korpusz (Kugler 2015), a szintén diktafonnal rögzített, egyetemisták társalgásaiból létrehozott Budapesti Egyetemi Kollégiumi Korpusz (Bodó et al. 2017), a pragmatikai szempontú elemzéseket célzó, iskolákban okosórákkal felvett StaffTalk (Szabó et al. 2021). Ezen beszédadatbázisok elsődleges célja valamely konkrét nyelvészeti terület kérdéseinek megválaszolása volt, létrehozóik kevésbé befolyásolhatták a felvételi körülményeket, a hanganyagok akusztikai tulajdonságai miatt éppen ezért korlátozottan tekinthetők alkalmasnak a beszédtechnológiai felhasználásra.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Kevés olyan spontán beszédet tartalmazó, annotált magyar nyelvű adatbázis létezik, amelyek kifejezetten beszédtechnológiai kutatások és fejlesztések támogatására alkalmasak lehetnek. Az egyik ilyen adatbázis egy speciális kommunikációs csatornára, a telefonra fókuszáló MTÜBA, amely ügyfelek és diszpécserek spontán beszédét tartalmazza szöveglejegyzéssel és frázisszintű automatikus annotálással (Vicsi–Sztahó 2009). A Speecon a 2000-es évek elején rögzített, spontán beszédet és felolvasásokat is tartalmazó adatbázis, amelyet kifejezetten beszédtechnológiai alkalmazás céljából hoztak létre (Siemund et al. 2000), elérhetősége a kutatói közösség számára azonban korlátozott. Kutatási célokra ingyenesen hozzáférhető a HuComTech (Hunyadi et al. 2012), amely felolvasás mellett egy formális, szimulált állásinterjút és egy informális beszélgetést is tartalmaz beszélőnként. A 112 beszélő által létrehozott összesen 50 órányi hanganyag frázisszinten lejegyzett formában is rendelkezésre áll, és annotált videofelvételek is társulnak hozzá.
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave