4.2. A terminológiai adatbázisok szerkesztési szintjei és az adatmező-kategóriák

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Nézzünk meg pár szempontot részletesen is, amelyekről korábban már írtam (Tamás, 2014, 99–108). Ezek közül is érdemes kiemelni a terminológiai adatbázis felépítésének módját és ennek érdekében röviden áttekinteni az egyes adatmező-kategóriákat és azok elhelyezkedését az egyes szerkesztési szinteken. A terminológiai adatbázis létrehozásakor annak felépítését (azaz nyelvészeti algoritmusát), az adatok rendezési módját alaposan és részletesen át kell gondolni, meg kell tervezni, tesztelni és a feldolgozott információk típusához és a felhasználói igényekhez igazítani. Az adatmezők típusait – más néven leíró mezők vagy metaadatok, hiszen az adatokról szóló információkat tárolják – a különböző szerkesztési szintekhez hozzá kell rendelni. Az egy terminushoz tartozó adatok a felhasználók számára a terminográfiai bejegyzésben jelennek meg. A terminológiai adatbázis elektronikus „szócikkeinek” nemzetközi elnevezései a következők: record vagy entry (ang.), Eintrag (ném.), fiche terminologique (fr.), scheda terminografica (ol.) és ficha terminográfica (sp.). Megfelelőként a szótári cédulák mintájára akár a terminográfiai cédula vagy adatlap kifejezés is használható lenne, bár a magyar nyelvben az utóbbi időben a bejegyzés terjedt el, míg a terminológiai kártya magyar nyelven idegenül hat. A terminográfiai bejegyzés különbözik a hagyományos papírcéduláktól, hiszen „valamely adatbázis webes felületén szereplő adatlap. Az adatlapra adatrekordok rögzíthetők, és ennek létezik egy megjelenítési formája, azaz a felhasználó által olvasható adatmezők, vagy más néven leíró mezők” (Sermann & Tamás, 2010, 103).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A terminológiai adatbázisok építésének elősegítésére léteznek olyan szabványok (ISO 12620:1999; ISO 12620:2009, 12620:2019), amelyek kifejezetten az adatmezőtípusok csoportosítását és típusait sorolják fel. Az ISO 12620:1999 (Computer applications in terminology – Data categories) szabvány szerinti tíz fő adatmezőtípus: a terminus és a terminushoz kapcsolódó információkat bemutató adatmezők csoportjában a terminus, a terminushoz kapcsolódó adatmezők, az ekvivalencia; a leíró jellegű adatmezők között: a domén, a fogalomhoz kapcsolódó leíró mezők között a fogalmi viszonyok, a fogalmi struktúrák vagy rendszerek, a megjegyzés; az adminisztratív jellegű adatmezők közül a dokumentáció, az adminisztratív információk. Ezek közül alapvető fontosságúak: a fő terminus, a felvétel időpontja és a forrás megjelölése. Az 1999. évi szabványt átdolgozták, ezt követte az ISO 12620:2009 (Terminology and other language and content resources – Specification of data categories and management of the Data Category Registry for language resources), majd még egy újabb változat 2019-ben (ISO 12620:2019 Management of Terminology Resources ‒ Data Category Specifications) jelent meg. Az adatmezők részletes leírását a 2009. évi szabvány sem tartalmazta már, mert azt – az 1999. évi szabvány tartalmára építve – Adatmezőtípusok Jegyzéke (Data Category Registry1) alatt mindenki számára elérhetővé tették. Ez egy nyílt fórumként működött, amely átfedésekkel ugyan, de alfabetikus sorrendben körülbelül 590 adatmezőtípust sorolt fel, és lehetőséget biztosított visszajelzések adására. A fórum végső célja az volt, hogy elősegítse az adatmezők típusainak egységesítését, leírását és a széles körű egyeztetések eredményképpen azok szabványosítását. Ez az adatbázisok közötti adatcsere lehetővé tétele miatt fontos. A 2019. évi szabvány sem tartalmaz mintaként használható adatmodelleket, hanem iránymutatásokat és elvárásokat sorol fel, elismerve a különböző tárgykörök nyelvi forrásainak feldolgozási igényeit, amelyek különböző adattípusok alkalmazását igényelhetik. A 2022. évben megjelent két szabvány (12620–1:2022, 12620–2:2022) szintén elvárásokat és ajánlásokat fogalmaz meg. Meghatározzák magát az adatmező-kategóriát (egy adatgyűjtemény vagy rögzítési séma részét képező adatosztály) és ismertetik azok leírásának és kezelésének (online közzétételének, elektronikus tárolásának, beazonosításának) módjait, továbbá a 12620–2:2022 egy mintát is tartalmaz, amely a DatCatInfo2 felületéhez kapcsolódik. Az adatmezőtípusok ismertetése az adatbázison belül lehetővé teszi a kompatibilitás gyors ellenőrzését, tehát az egységes használat továbbra is cél marad, ahogyan az adatcsere végrehajthatósága is. Ebből a célból létrejött egy JIAMCATT elnevezésű kezdeményezés is, amely évente egyszer rendez CAT és terminológia témakörében egy zártkörű konferenciát a legnagyobb központi adatbázis-előállítók és egyetemek részvételével (ennek résztvevői például: az EU, az ENSZ és az IMF fordítószolgálatai vagy a Kanadai Központi Fordítóiroda), amelynek célja egy közös elérhetőségű platform megteremtése (Maslias, 20143). További kezdeményezés a Federated eTranslation TermBank Network,4 amely metakeresővel segítené az uniós tagállomokban létrehozott különböző terminológiai adatbázisokban való keresést, amelynek központi csomópontja az eTranslation TermBank lenne (Fóris 2024). Kereskedelmi szolgáltatásként elérhető még a magyar fejlesztésű Juremy Kft.5 metakeresője, amely az EUR-Lex és a IATE adataiban biztosít gyors és különböző opciókkal beállítható, személyre szabható részletes keresést.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az egységesítés és adatcserék lehetővé tétele érdekében a DatCatInfo6 felületén különböző mélységben kidolgozott nyelvészeti algoritmusok szerepelnek (TBX-fájlformátumra):

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  • a nélkülözhetetlen adatmezőtípusok: dátum, megjegyzés, terminus;
  • a minimális változat további hozzáadandó adatmezőtípusai: adminisztrációs feldolgozás mértéke, ügyféltípus, szófaj, domén;
  • az alapváltozat adatmezőtípusai továbbá: kontextus, belső és külső hivatkozások, definíció, nyelvtani nem, földrajzi használat jellemzői, projekt megnevezése, felelős személy, forrás, terminus előfordulása, terminus típusa, bejegyzés szerkesztési adatainak különböző típusai, grafikus/multimédiás elemek.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A szabványokban (ISO 26162-1: 2019) és a szakirodalomban (Reinke, 2012, 102; Arntz, Picht & Schmitz, 2014, 239–241; Drewer, Pulitano & Schmitz, 2014, M-9:9) is fellelhetők azok az adatmodellezési terminológiai elvek, amelyeket a terminológiai adatbázisok szerkezetének kialakításakor érdemes figyelembe venni. Ezek az alábbiak:

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  • fogalomalapú szemléletmód elve: fogalomalapú megközelítés, amelynek központi eleme a fogalomközpontú szerkesztési mód, a definícióban megjelenő fogalom és további minden fogalom fogalomazonosítóval jelölt; ebből következően egy terminográfiai bejegyzés egy fogalmat jelöl;
  • terminusautonómia elve: egy terminográfiai bejegyzésen belül a terminusok önálló egységet képeznek, és minden egyes terminusra külön kitöltendők a releváns adatok;
  • elementaritás elve: minden adatmező egytípusú adatot tartalmazhat; ez azt jelenti, hogy a terminus adatmező kizárólag a terminust tartalmazhatja minden egyéb információ nélkül (például névelő vagy többes számú alak elhagyása, ha ez utóbbi nem az alapvető alakja az adott terminusnak);
  • granularitás elve: pontosságra és részletességre törekvés, de a túl sok alkategória elkerülése (például a ’nyelvtani jellemzők’ adatmező-kategória túl tág, ezért inkább nyelvtani nem, ’nyelvtani szám’ vagy ’szófaj’ a preferált).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az adatbázistípusok és a szerkesztési elvek segíthetnek a megfelelő nyelvészeti algoritmus kiválasztásában. Arntz, Picht & Mayer (2009, 231) az adatmezőtípusokat az alábbiak szerint csoportosítja:

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  • jelölő (terminus) és arra vonatkozó adatmezőtípusok (például nyelvtani adatok, kontextus, földrajzi használati jellemzők, információk az ekvivalenciáról);
  • fogalomra vonatkozó adatmezőtípusok (például domén, definíció, ábra);
  • szerkesztési adatmezőtípusok (például forrás, szerkesztési dátum, szerkesztő).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Arntz, Picht & Schmitz a 2014. évi hetedik kiadásában (2014, 229–238) már egy komplexebb rendszert vázol fel, amely a terminológiamenedzsment igényeit követve figyelembe veszi a nyelvek számát, a nyelvészeti algoritmus összetettségét, az adatállomány önállóságát vagy más rendszerrel való összekapcsolhatóságát, a szoftvert és az üzleti modellt. Meg kell jegyeznünk, hogy ahogyan a fenti felsorolásból is kivehető, míg a definíció kétségkívül központi kategóriaként szerepel a terminussal együtt, addig az ekvivalencia adatmező nem feltétlenül szerepel önálló adatmezőtípusként. Ahogyan arról Kardos (2024b) ír tanulmányában, az ekvivalencia adatmezőtípus és az erre vonatkozó információ hiánya megnehezíti az országspecifikus fogalmak kiszűrését, hiába szerepel például a IATE terminológiai adatbázis esetében más adatmezőkben erről adat. Ezt a funkciót például a megjegyzés adatmező („notes”), a kiindulási nyelv megadásával („anchor language”) és a származási ország vagy szerkesztő intézmény („origin field”) megadásával pótolják (Kardos, 2024b, 105). Kardos (ibid.) javaslatot tesz továbbá az uniós terminusok rendszeres besorolására a IATE adatbázisban a következő módon: egyetemleges/általános fogalmat jelölő terminusok („universal terms”), unióspecifikus fogalmak („EU-specific concepts”) és országspecifikus terminusok („country-specific terms”), aminek segítségével a fordítók könnyebben dönthetnek arról, hogy a kontextust is figyelembe véve milyen fordítói stratégiát alkalmaznak (Kardos, 2024b, 102). Felveti továbbá egy olyan fakultatív jellegű adatmező („transfer comment”) használatát, amelyben jelölhető az, hogy funkcionális ekvivalensről vagy fordítási ekvivalensről szerepel a bejegyzésben (Kardos, 2024b, 114–115).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A definíción és a terminuson kívül a gyakorlatban gyakori adatmezőtípusok az alábbiak (Tamás & Sermann, 2019, 35 nyomán):

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  • terminus státusza: ez lehet fő terminus (ang. main term vagy head term) és szinonima; a szinonima szerepelhet önálló bejegyzésben a fő terminusra történő utalással vagy egy bejegyzésben a fő terminussal egy további adatmezőben rögzítve; ez utóbbi esetben is több megoldás van a jelölésére, például gyakran a kapcsolódó terminus (ang. related term) mezőtípuson belüli alkategóriaként tüntetik fel, és ebben az esetben külön adatmezőtípus jelöli a reláció típusát, ami lehet fölérendelt (ang. superordinated), alárendelt (ang. subordinated) vagy mellérendelt (ang. co-ordinated term) vagy egy terminus adatmezőben szintén megfelelő jelöléssel;
  • megbízhatóságra és validálásra vonatkozó információk: például a IATE esetében az adatok ellenőrzöttségét és jóváhagyását csillagok számában meghatározott megbízhatósági index (ang. reliability index) jelöli;
  • címkék használata: a címkék többféle információt is hordozhatnak, például vonatkozhatnak a földrajzi használatra (például a TermDat adatbázis jelöli, hogy melyik kantonon belül használatos az adott terminus), a dokumentumtípusa (például a Termium Plus esetében útlevél) vagy a terminus és az adatok státuszára úgy mint ajánlott, tiltott, szabványosított (például az EURAC Kutatóintézet bistro terminológiai adatbázisban szerepelnek a terminológiai bizottság által jóváhagyott adatok, míg a IATE az obsolete címkével jelöli az archaikus változatokat);
  • kontextus: a kontextusnak léteznek speciális változatai, amelyek akár a definíció helyettesítésére is alkalmasak (a WIPO Pearl esetében speciális kontextusok is előfordulnak);
  • ábrák és egyéb multimediális elemek;
  • egyéb nyelvi jellemzők: nyelvi alakváltozatok, rövidített formák, állandósult kapcsolatok (a kollokációk hozzáadása kevésbé jellemző, de erre is van példa a bistro adatbázisában).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az elektronikus terminológiai adatbázisokban a tárolási lehetőségek megnövekedésének köszönhetően lehetőség nyílik a fent említett, terminussal kapcsolatos többletinformációk megadására. A terminológiai adatok egységesítési törekvéseiről a szabványokban részletesen ír tanulmányában Reineke (2022).

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az adatmezők más módon is csoportosíthatók. Megközelíthetjük afelől is, hogy melyek a szoftverhasználatból eredő kötelező és fakultatív adatmezők, vagy terminológiai szempontból mi a minimálisan szükséges adatmennyiség (például terminus, definíció, szerkesztési adatok, domén stb.). A minimálisan szükséges adatmezők igénye projektenként eltérhet, például műszaki terminusok esetében szükséges lehet a műszaki rajz.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A terminográfiai bejegyzés felépítését az adatrögzítés megkezdése előtt pontosan ki kell dolgozni, hiszen a felépítés később csak nehézségek árán módosítható. Néhány érv az átgondolt struktúra kidolgozása mellett (Tamás, 2012, 10):

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  • a meghatározatlan struktúrájú adathalmaz a keresést lehetetlenné teszi;
  • az adatbevitel dátumának elhagyásával nincs információ a naprakészségről;
  • a források és a jóváhagyás feltüntetésének elmulasztásával kétes információkkal rendelkezünk, amelyek megbízhatósága nem ellenőrizhető.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A terminológiai adatbázisok jellemzője továbbá a hierarchikus szerkesztési mód, azaz az adattípusok három szerkesztési szinthez történő rendelése. Ennek megfelelően az adatok három szinten rögzítik, az adatmezőket is ehhez a három szinthez rendelik hozzá (l. még Tamás, 2012, 11–12):

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  1. szerkesztési szint: a bejegyzés szintje (entry level): fogalomazonosító kódszám és a hozzárendelt definíció, szerkesztési adatok;
  2. szerkesztési szint: a nyelvi indexálás szintje (index level vagy language level): a használt nyelv megadása, az ún. nyelvi indexálás;
  3. szerkesztési szint: a terminus (vagy jelölő) szintje (term level): a fogalomhoz hozzárendelt jelölő és/vagy az arra vonatkozó egyéb adatok megadása.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A hierarchikus sorrend abból a szempontból is fontos, hogy segít átültetni a gyakorlatba a terminológiára jellemző fogalomalapú szemléletmódot a fogalomközpontú szerkesztésmóddal, amely szerint az adatbázis központi eleme a fogalom, egy fogalom egy terminográfiai bejegyzéshez rendelendő hozzá. A fogalomközpontúság megvalósítása érdekében nem mindegy, hogy az egyes adatmezőtípusok hol helyezkednek el. Az 1991-ben alapított németországi DTT terminológiai egyesület, a DTT TerminologieTag e.V., a terminológiai adatbázis-készítés bevált gyakorlatát összefoglalva az adatmezőket az adott szintekhez az alábbi módon rendeli hozzá (Drewer, Pulitano & Schmitz, 2014, M2 8‒9):

Jegyzet elhelyezéséhez, kérjük, lépj be.!

  • bejegyzés szintje (fogalmi szint): bejegyzési szám, besorolás (domén), bejegyzés készítője (szerkesztő), utolsó módosító személy, előállítás dátuma, módosítás dátuma, definíció, definíció forrása, bejegyzés státusza (például feldolgozás alatt, validált), megjegyzés, megjegyzés forrása, ábra, ábra forrása;
  • indexálás szintje (nyelvi szint): definíció (ha nem a fogalmi szinten szerepel), definíció forrása, megjegyzés, megjegyzés forrása, nyelvi blokk státusza (például feldolgozás alatt, validált), ábra, ábra forrása;
  • terminus szintje (jelölő szintje): jelölő, jelölő forrása, jelölő típusa (például: rövidítés), szófaj, nyelvtani nem, nyelvtani szám, földrajzi használat, jelölő blokkjának státusza (például ajánlott, tiltott címke), érvényességi kör (például: cég, osztály), kontextus, kontextus forrása, megjegyzés, megjegyzés forrása.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A felsorolásban bizonyos adatmezők azért szerepelnek több szint alatt is, mert több helyen is rögzíthetők, de ez nem jellemző minden adatmezőtípusra. Ilyen például a definíció, amely a bejegyzés és az indexálás szintjén is elhelyezhető, de nem kerülhet a terminus szintjére, mert az a fogalomközpontúságot meghiúsítja. A terminus szintén két helyre is kerülhet: az indexálás és a terminus szintjére, de a bejegyzés szintjére nem rögzíthető, mert ez ellentmond a fogalomközpontúságnak. Léteznek kifejezetten terminológiai adatbázisok építésére kifejlesztett szoftverek, az ún. terminológiai adatbázis-kezelő szoftverek, amelyek közül a hazai kereskedelmi forgalomban önálló felületként elsősorban a MultiTerm használatos. A mindennapi gyakorlatban a modern terminológiai adatbázis-kezelő szoftverek általában lehetővé teszik az adatok különböző szinteken történő tárolását (l. az 3. táblázatot).
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

3. táblázat: A terminológiai adatbázisok fogalomközpontú szerkesztési módjának gyakorlati megvalósulása a főbb adatmezőtípusokkal
SZINT
ADATTÍPUS
ENTRY LEVEL (BEJEGYZÉS SZINTJE)
domén, definíció és kódszám, szerkesztő adatai
INDEX/LANGUAGE LEVEL (NYELVI INDEXÁLÁS SZINTJE)
terminus és/vagy definíció
TERM LEVEL (TERMINUS SZINTJE)
terminus és/vagy a terminusra vonatkozó adatok
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az Európai Unió intézményközi terminológiai adatbázisában, azaz a IATE-ben szintén megtalálható a fenti hármas szintű hierarchikus besorolás: 1. Language Independent Level, azaz nyelvfüggetlen szint (fogalomra vonatkozó információk), 2. Language Level, azaz nyelvi szint (terminusra vonatkozó általános, több nyelvre érvényes információk), 3. Term Level, azaz a terminus szint (a terminusra vonatkozó konkrét információk) (Lesznyák, 2010, 166).
 
1. ábra: A MultiTerm szoftver varázslóablaka a három hierarchikus szerkesztési szinttel és az azok alá besorolt adatmezőtípusokkal.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az 1. ábrán a MultiTerm szoftver varázslóablaka látható a három hierarchikus szerkesztési szinttel és az azok alá besorolt adatmezőtípusokkal. A MultiTerm adatbázis-kezelő szoftver segítségével kidolgozott példán szerepelnek a minimálisan szükségesnek tekinthető adatmezőtípusok, illetve használati címkék (l. fő terminus, ajánlott terminus) és az ekvivalencia adatmező.
 
2. ábra: A jogszabály terminus bejegyzése a MultiTerm szoftver felületén.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A jogszabály terminus terminográfiai bejegyzésében (l. a 2. ábrát) a terminusok között részleges az ekvivalencia, a fogalmi különbségek leírására az ekvivalencia adatmezőben van lehetőség. Feltüntethető, ha részleges ekvivalencia vagy ekvivalencia hiánya áll fenn, és rögzíthető funkcionális ekvivalens, azaz analóg fogalmat jelölő terminus, vagy újonnan kidolgozott ekvivalens, amellyel azt jelezzük, hogy nem terminus-terminus találatról van szó (Fóris 2007). A jogszabály terminus részletes elemzéséről már korábban írtam (Tamás, 2019b).
 
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave