Kiefer Ferenc (szerk.)

Magyar nyelv


A Szeged Korpusz

Mivel a szóalaktani szint magában hordozza a többértelműséget, a szófaj egyértelmű megállapításához további modulok kifejlesztése vált szükségessé. Ezek megvalósításához a SZTE Informatikai Tanszékcsoport és a MorphoLogic együttműködésével alakult konzorcium egy IKTA-projekt keretében 2000 és 2002 között Szeged Korpusz néven elkészített egy magyar természetes nyelvi szövegadatbázist, valamint egy, a szófaji egyértelműsítést támogató szoftverrendszert. A korpusz a szövegeket strukturáltan tárolja (cikk, bekezdések, mondatok). A szöveg minden egyes szava mellett szerepel a Humor morfológiai elemző kimenete, amely a lehetséges szófaji kódokat és szótöveket tartalmazza, valamint a kézi egyértelműsítéssel kiválasztott, az adott szövegkörnyezetnek megfelelő helyes kódolás és szótő. A szavak szófaji kódolása az európai nyelvekre azzal az MSD-kódrendszerrel történt, amelyet az MTA Nyelvtudományi Intézet és a MorphoLogic alakított ki a MULTEXT-EAST nevű Copernicus-pályázatban. Az öt kisebb témakörből származó – szépirodalmi, publicisztikai, számítástechnikai, jogi szövegekből, valamint tizenévesek rövid írásaiból álló –, összességében egymillió szövegszót tartalmazó magyar korpusz a TEI nemzetközi szövegkódolási ajánlásnak megfelelő XML-formátumban készült (http://www.tei-c.org/). A korpusz 1.0 változatát egy 200 ezer szóból álló üzleti szövegeket tartalmazó részkorpusszal egészítette ki a NewsPro rendszert (1. lejjebb) megvalósító – és a Nyelvtudományi Intézetet is magába foglaló – konzorcium. Ezzel létrejött a korpusz: 1,2 millió szövegszavas és 225 ezer írásjel méretű 2.0 verziója. Összesen 250 ezer legfelső szintű főnévi csoport (NP) szerepel a korpuszban, a legmélyebb szerkezet 9 NP mélységű, míg a szerkezetek többsége 1–3 NP mélységű. Az annotálást követően a konzorcium kutatói megvizsgálták a gépi tanulási algoritmusok alkalmazhatóságát a lapos szintaktikai elemzés problémájára. Az algoritmusok hatékony működtetéséhez főnévicsoport-felismerő szabályokat vontak ki a korpuszból, majd ezeket szakértők által definiált szabályokkal kombinálták. A korpuszfájlok XML formátumban érhetők el, belső struktúrájuk a TEI DTD P4 leírást követi.

Magyar nyelv

Tartalomjegyzék


Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2015

Nyomtatott megjelenés éve: 2006

ISBN: 978 963 058 324 4

A kötet fő célja, hogy összefoglaló tanulmányokban mutassa be a magyar nyelvre vonatkozó kutatások mai állását. A harmincnégy fejezet szerzői nemcsak új eredményeket közölnek, hanem bemutatják azokat az elméleti-módszertani újításokat is, amelyek a magyar nyelvtudományban - a nemzetközi nyelvtudománnyal teljes összhangban - az utóbbi évtizedekben végbementek.

A kötet négy részből áll. Az első tömb a nyelvi rendszer formai eszközökkel is megközelíthető legfontosabb területeit öleli fel - itt szerepel az alaktan, a hangtan, a mondattan, de itt kapott helyet a szövegtan, a szemantika és a pragmatika is. A második rész a nyelvtörténet korszakait, a magyar nyelvtudomány történetét tárgyalja. A harmadik fejezet a magyar nyelv neuro-, pszicho- és szociolingvisztikai vonatkozásival foglalkozik. Az utolsó rész az alkalmazott nyelvészet és a nyelvtudomány néhány határterületéről szól. Foglalkozik a beszéd zavaraival, a siketek jelnyelvével, a szaknyelv kérdéseivel, valamint az idegennyelv-tanulás és idegennyelv-oktatás problémáival.

Az Akadémiai Kézikönyvek sorozat legújabb darabja a legkorszerűbb összefoglalója mindannak, amit a XXI. század első évtizedében az érettségiző és felvételiző diákoknak, valamint a felsőoktatásban részt vevő tanulóknak tudniuk kell a sikeres vizsgákhoz a magyar nyelv témakörében.

Hivatkozás: https://mersz.hu/kiefer-magyar-nyelv//

BibTeXEndNoteMendeleyZotero

Kivonat
fullscreenclose
printsave