6. Problémaforrás és tervezett megoldása, továbblépési lehetőségek
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Sohár Anikó (szerk.) (2024): Varietas delectat. : Akadémiai Kiadó.
https://doi.org/10.1556/9789636640002 Letöltve: https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p1 (2024. 11. 04.)
Chicago
Sohár Anikó, szerk. 2024. Varietas delectat. : Akadémiai Kiadó. https://doi.org/10.1556/9789636640002 (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p1)
APA
Sohár A. (szerk.) (2024). Varietas delectat. Akadémiai Kiadó. https://doi.org/10.1556/9789636640002. (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p1)
Az adatbázis a módszer jellegéből adódóan óhatatlanul szubjektív. Nem egyértelmű feladat a szöveghelyek feldolgozása során meghúzni a határt tartalom, kontextus és implikáció között. Nem egyszerű elkülöníteni, mi számítson külön címkének, mi legyen mégis egy kategória, mivel nemcsak tartalmi egyezésekről, átfedésről vagy különbségekről van szó, de arról is, hogy gyakoriság és összetettség függvényében erősen eltolódhatnak az arányok, ha nem kiegyensúlyozottak a kategóriák. S különösen megnehezíti az objektivitást, hogy mind a címkék kiválasztása, mind a szöveghelyek címkézése minden igyekezet ellenére szükségszerűen tükrözik valamilyen mértékben egyéni elképzeléseimet, előítéleteimet, látásmódomat, teret engedve különféle hibalehetőségeknek, például a megerősítési vagy mintavételi torzításnak.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Sohár Anikó (szerk.) (2024): Varietas delectat. : Akadémiai Kiadó.
https://doi.org/10.1556/9789636640002 Letöltve: https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p2 (2024. 11. 04.)
Chicago
Sohár Anikó, szerk. 2024. Varietas delectat. : Akadémiai Kiadó. https://doi.org/10.1556/9789636640002 (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p2)
APA
Sohár A. (szerk.) (2024). Varietas delectat. Akadémiai Kiadó. https://doi.org/10.1556/9789636640002. (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p2)
Ennek a problémának a megoldására eredetileg statisztikus segítségével azt a megoldást találtuk, hogy egy másik kutató betanítást követően, a megadott szempontok alapján újrakódolja az adatbázis néhány véletlenszerűen kiválasztott szakaszát, kb. 100-200 sornyi adatot, majd ellenőrizzük, milyen arányban egyezik az eredeti és az újrakódolt adatbázis, és ennek megfelelően haladok tovább.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Sohár Anikó (szerk.) (2024): Varietas delectat. : Akadémiai Kiadó.
https://doi.org/10.1556/9789636640002 Letöltve: https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p3 (2024. 11. 04.)
Chicago
Sohár Anikó, szerk. 2024. Varietas delectat. : Akadémiai Kiadó. https://doi.org/10.1556/9789636640002 (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p3)
APA
Sohár A. (szerk.) (2024). Varietas delectat. Akadémiai Kiadó. https://doi.org/10.1556/9789636640002. (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p3)
Azonban míg a keretrendszer fejlesztése közben bevált gyakorlatokat kerestem, világos lett, hogy van jobb megoldás is: van ugyanis egy terület, ahol rendszeresen használnak az enyémhez hasonló (bár túlnyomó többségében annál jóval egyszerűbb) adatbázisokat, ez pedig a gépi tanulás.
Jegyzet elhelyezéséhez, kérjük, lépj be.!
Hivatkozások
Válaszd ki a számodra megfelelő hivatkozásformátumot:
Harvard
Sohár Anikó (szerk.) (2024): Varietas delectat. : Akadémiai Kiadó.
https://doi.org/10.1556/9789636640002 Letöltve: https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p4 (2024. 11. 04.)
Chicago
Sohár Anikó, szerk. 2024. Varietas delectat. : Akadémiai Kiadó. https://doi.org/10.1556/9789636640002 (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p4)
APA
Sohár A. (szerk.) (2024). Varietas delectat. Akadémiai Kiadó. https://doi.org/10.1556/9789636640002. (Letöltve: 2024. 11. 04. https://mersz.hu/dokumentum/m1143vd__123/#m1143vd_121_p4)
A gépitanulás-alapú szövegklasszifikáció során az egyik lehetséges út, hogy előbb emberi segítséggel létrehozunk egy próbahalmazt (jelen esetben a próbavizsgálat adatbázisát), majd ennek segítségével számítógépes eszközöket megtanítunk hasonló adatbázisok létrehozására. Az így betanított eszközök ezután ideális esetben képesek többé-kevésbé reprodukálni az emberi munkát, és nemcsak ellenőrizhető lesz a manuálisan létrehozott adatbázis következetessége, de új korpuszból lehetséges automatikusan adatbázist kialakítani. Ilyen módon a jelen kutatásban egyrészt a validáció szubjektivitása nagyban eliminálható, másrészt hatalmas előny, hogy amennyiben a betanítási folyamat sikeres, és a módszer működik, bármelyik további magyar folyóiratra alkalmazható változtatás nélkül. Ez pedig azt jelenti, hogy több hónap helyett néhány óra alatt elkészül az új adatbázis. A betanítást a Rényi Alfréd Matematikai Kutatóintézet Mesterséges Intelligencia Kutatási Osztályának munkatársával végezzük majd, és bár a módszer nem hibátlan, okunk van feltételezni, hogy a címkerendszer leglényegesebb részeire jól alkalmazható. Ez a kutatás tervezett következő lépése, amely a kutatáson túlmutató, hatalmas anyag feldolgozását lehetővé tevő, Magyarországon eddig nem alkalmazott módszert adhat a kezünkbe.