3. Beágyazások
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p1 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p1)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p1)
Az elmúlt tíz évben a számítógépes nyelvészetben általánossá vált, hogy a szavak (diszkrét szimbolikus elemek) helyett a szóvektorokat (az ℝn n-dimenziós tér pontjait) használják. A vektorokra mindig mint az origóból induló és a pontban végződő irányított szakaszra, azaz mint kötött vektorokra gondolunk. Miután a kezdőpont mindig azonos, a vektorok és végpontjuk közt nem teszünk megkülönböztetést. A szavak és a (vektor vég)pontok közti leképezést szokás szóbeágyazásnak is hívni, hiszen a szavakat a térben helyezi el, oda ágyazza be. Az alkalmazásokban a tér dimenzióinak száma 200 és 800 közt szokott változni, az n = 300 a leggyakoribb. A matematikai statisztika klasszikus dimenzió-csökkentő eljárásaival, elsősorban főkomponens-elemzéssel (Pearson 1901) még a relatíve magas dimenziószám (pl. a GPT2 [Radford et al. 2019] által használt n = 12 288) is hatékonyan csökkenthető: a GPT4 (OpenAI 2023) már csak 1536 dimenzióval dolgozik, és a klasszikus analógiás feladatok (öreg : fiatal = kecske : x) megoldásában 200-nál több dimenzióra nem is nagyon van szükség. A magyar huBERT (Nemeskey 2021) eredetileg 768 dimenziós beágyazásai is 2-300 dimenzióra való redukció után teljesítenek legjobban az analógiás feladatokon (Gedeon 2023).
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p2 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p2)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p2)
Első látásra talán meglepő lehet, hogy a dimenziószám csökkentése a teljesítmény javulásához is vezethet, de a magyarázat egyszerű: egy ilyen lépéssel gyakran épp az irreleváns adatokat, a zajt szűrjük ki. A modern beágyazások gyakran többmillió szóalakot is lefednek, de amelyik alak a korpuszban csak ritkán fordul elő, az ahhoz tartozó vektorok gyakran zajosak. A lefedettség javítását szolgálja a szónál kisebb egységek, az ún. szódarabok (word pieces, l. Wu et al. 2016) bevonása az elemzésbe, de miután ezek ritkán esnek egybe a nyelvészetileg indokolható morfémákkal, erre itt most nem térünk ki bővebben – a morfémák gépi tanulásos kinyeréséről l. Ács–Kornai (2020).
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p3 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p3)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p3)
Természetesen a beágyazás nem véletlenszerűen történik, hanem arra törekedve, hogy „közeli” szavaknak egymáshoz közeli pontok feleljenek meg (a szóvektorok pszichológiai realitásáról l. Hollenstein et al. 2019). Hangsúlyozzuk, hogy a módszer célja a jelentések (Sinne), nem pedig a jelöletek (Bedeutungen) közti kapcsolatok szorosságának feltérképezése. Két szót akkor tekintünk egymáshoz közelinek, ha a disztribúciójuk hasonló. Az elmélet alapjait még Harris (1954) és Firth (1957) vetették meg, de e klasszikus munkák modern olvasói igencsak csalódottak lesznek, ha ezek alapján akarják a szóvektorokat megérteni. Harris műve világos, alaposan leírt elmélet, mely a későbbi (mind számítógépes, mind elméleti) nyelvészeti fejlődés alapjait vetette meg, de se vektorokról, se együttes előfordulási statisztikáról nincs benne szó. Firth, azon túlmenően, hogy kiadta a máig népszerű jelszót: „szomszédságáról ismerszik meg a szó” (you shall know a word by the company it keeps), sajnos jóval kevésbé érthető, és munkássága gyakorlatilag teljesen hatástalan maradt. Az alapgondolatot először Schütze (1993) hozta olyan algoritmikus formába, melynek alapján már effektíve ki is lehetett számolni a szóvektorokat.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p4 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p4)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p4)
Álljon egy w0 szó egy 2k hosszú környezete a w−k, w−k+1, …w−1, w1, w2, …, wk szavakból. Ha pl. k = 2, akkor a vennének szó egyik (korpuszban fellelhető) környezete bizonyára, szívesen, _ , némi, felvilágosítást. Ha minden szóhoz rendelünk egy vektort, akkor ezzel egyben minden környezethez is hozzárendelhetünk egyet, pl. a környezetben előforduló szavakhoz rendelt vektorok (súlyozott) összegét. A cél úgy beállítani a vektorokat, hogy hasonló szavak egymáshoz közeli vektort kapjanak, nem-hasonló szavak pedig egymástól távolit. A feladatkitűzés csak látszólag körkörös, hiszen a két cél tulajdonképpen egyetlen mennyiség minimalizálása, ez pedig a hasonló szavak közti távolságok (négyzet)összege: ha ez sikerül, akkor egyben a környezetek hasonlósága is biztosítva van. Természetesen eközben törekedni kell arra is, hogy a nem-hasonló szavak viszont ne kerüljenek a térben közel egymáshoz: ezt negatív mintavétellel érjük el, tehát úgy, hogy a szavak valódi környezetei helyett random kiválasztott (más szavakhoz tartozó) környezeteket is figyelembe veszünk, a szó és az ilyen negatív környezet közti távolságot pedig maximalizáljuk – az eljárás részletes leírását l. Goldberg–Levy (2014)-ben.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p5 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p5)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p5)
Az áttörést Collobert et al. (2011) hozta meg: ebben a cikkben ugyanazokat a szóvektorokat használták négy jól ismert számítógépes nyelvészeti feladat, a szófajmeghatározás (part of speech tagging), a durva mondattani elemzés (chunking), a névelemfelismerés (named entity recognition), és a szemantikai szerepmeghatározás (semantic role labeling) megoldására, és mindegyik feladatban az addigi legjobb eredményeknél jobbat értek el. Miután a feladatok erősen eltérő jellegűek, nem volt megkerülhető az a következtetés, hogy a javulás annak köszönhető, hogy a vektorok a jelentésből ragadnak meg, ha nem is mindent, de annyit feltétlenül, amennyi a megoldásban már segít.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p6 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p6)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p6)
Mára a szóvektorok alkalmazása általánossá vált nemcsak az információvisszakeresés (information retrieval, pl. Google), a kérdés-megválaszolás (question answering), az attitűd-elemzés (sentiment analysis), az információ-kinyerés (information extraction), a tartalmi kivonatolás (summarization) és mindenfajta szövegelemzés területén, hanem még olyan feladatokban is, mint a beszéd- és írásfelismerés, melyek bemenete nem szöveges, hanem hangi vagy képi. Az ilyen feladatok megoldásához ugyanis nagy szükség van annak megállapítására, hogy egy adott kontextusban, pl. bizonyára szívesen _ némi felvilágosítást, melyik szó a legvalószínűbb, a látnak, vagy az ahhoz nagyon hasonló várnak. Ez a feladat, a statisztikai nyelvmodellezés, a szóvektorok bevezetésével lényegesen könnyebbé vált (Jozefowicz et al. 2016; Nemeskey 2020), és a modellek eredményességét (valós adatokhoz való illeszkedését) is egyre inkább ezen mérik, nem pedig a korai fejlesztésekben még nagy szerepet játszó analógiás feladatokon. A sorozat–sorozat transzformáció (sequence to sequence transformation, Sutskever et al. 2014) és a rögzített k kontextushossz-paramétert kikerülő figyelmi mechanizmus (attention, Vaswani et al. 2017) eredményezték azt, hogy a szóvektorokon alapuló modellek ma már az emberi, sőt számos tekintetben az embert meghaladó nyelvi teljesítményre képesek (Piantadosi 2023; Wilcox et al. 2022).
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p7 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p7)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p7)
Fentebb már említettük, hogy a szóvektorok által hamar lehetővé vált az ún. analógiás feladatok megoldása a vektorok közti paralelogrammaszabállyal: az öreg : fiatal = kecske : x feladatokat úgy oldjuk meg, hogy a (kecske) szóvektorból kivonjuk a (öreg) szóvektort, ehhez hozzáadjuk a (fiatal) szóvektort, majd megkeressük az n-dimenziós térben az eredményhez legközelebbi vektort, amely a gida lesz (Makrai 2015; Mikolov et al. 2013). Nem lehet kérdéses, hogy ez a jelenség csakis úgy magyarázható, hogy a vektorok a jelentéshez kapcsolódnak.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p8 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p8)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p8)
A szóvektoroknak köszönhetően bekövetkezett a régóta várt áttörés a gépi fordításban is. 2017-ben a Google Translate a lepihenni melletted menedék a szívemnek slágerszöveget még így fordította: ’shelter to lie down next to my heart’, de 2020-ra már így: ’to rest beside you is a refuge for my heart’. 2023-ban a ChatGPT a következő megoldást választja: To rest next to you is a refuge for my heart, de ha tovább kérdezzük (This is taken from a song. Could you maintain the internal rhyme “melletted/szívemnek”?), akkor az alábbi megoldást kínálja fel: Yes, it’s possible to maintain the internal rhyme “melletted/szívemnek” in the translation while still conveying the same meaning. One possible option could be: “To rest by your side, my heart finds a hide.” (Could you find a different translation?) Certainly! Here’s another possible translation that maintains the internal rhyme: “To nestle close, by you to repose.” Mindez elképzelhetetlen lenne a jelentés megőrzése, az információ másik nyelvre való átvitele nélkül.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Gyuris Beáta (szerk.) (2024): Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó.
https://doi.org/10.1556/9789634549956 Letöltve: https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p9 (2026. 06. 12.)
Chicago
Gyuris Beáta, szerk. 2024. Általános Nyelvészeti Tanulmányok XXXV.. : Akadémiai Kiadó. https://doi.org/10.1556/9789634549956 (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p9)
APA
Gyuris B. (szerk.) (2024). Általános Nyelvészeti Tanulmányok XXXV.. Akadémiai Kiadó. https://doi.org/10.1556/9789634549956. (Letöltve: 2026. 06. 12. https://mersz.hu/dokumentum/m1032anyt35__161/#m1032anyt35_159_p9)
Ezekhez a fejleményekhez képest talán meglepő, hogy az elméleti szemantika legújabb enciklopédikus összefoglalása, az öt kötetes Gutzmann et al. (2021), a szóvektorokról még csak említést sem tesz. A számítógépes nyelvészet tankönyvei, pl. Jurafsky–Martin (2022), újabb kiadásaikban már természetesen részletesen foglalkoznak a szóvektorokkal, és kifejezetten erről szól Kornai (2023) is, ahol a politópos általánosítást először bevezettük.