6. Problémaforrás és tervezett megoldása, továbblépési lehetőségek

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az adatbázis a módszer jellegéből adódóan óhatatlanul szubjektív. Nem egyértelmű feladat a szöveghelyek feldolgozása során meghúzni a határt tartalom, kontextus és implikáció között. Nem egyszerű elkülöníteni, mi számítson külön címkének, mi legyen mégis egy kategória, mivel nemcsak tartalmi egyezésekről, átfedésről vagy különbségekről van szó, de arról is, hogy gyakoriság és összetettség függvényében erősen eltolódhatnak az arányok, ha nem kiegyensúlyozottak a kategóriák. S különösen megnehezíti az objektivitást, hogy mind a címkék kiválasztása, mind a szöveghelyek címkézése minden igyekezet ellenére szükségszerűen tükrözik valamilyen mértékben egyéni elképzeléseimet, előítéleteimet, látásmódomat, teret engedve különféle hibalehetőségeknek, például a megerősítési vagy mintavételi torzításnak.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Ennek a problémának a megoldására eredetileg statisztikus segítségével azt a megoldást találtuk, hogy egy másik kutató betanítást követően, a megadott szempontok alapján újrakódolja az adatbázis néhány véletlenszerűen kiválasztott szakaszát, kb. 100-200 sornyi adatot, majd ellenőrizzük, milyen arányban egyezik az eredeti és az újrakódolt adatbázis, és ennek megfelelően haladok tovább.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Azonban míg a keretrendszer fejlesztése közben bevált gyakorlatokat kerestem, világos lett, hogy van jobb megoldás is: van ugyanis egy terület, ahol rendszeresen használnak az enyémhez hasonló (bár túlnyomó többségében annál jóval egyszerűbb) adatbázisokat, ez pedig a gépi tanulás.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A gépitanulás-alapú szövegklasszifikáció során az egyik lehetséges út, hogy előbb emberi segítséggel létrehozunk egy próbahalmazt (jelen esetben a próbavizsgálat adatbázisát), majd ennek segítségével számítógépes eszközöket megtanítunk hasonló adatbázisok létrehozására. Az így betanított eszközök ezután ideális esetben képesek többé-kevésbé reprodukálni az emberi munkát, és nemcsak ellenőrizhető lesz a manuálisan létrehozott adatbázis következetessége, de új korpuszból lehetséges automatikusan adatbázist kialakítani. Ilyen módon a jelen kutatásban egyrészt a validáció szubjektivitása nagyban eliminálható, másrészt hatalmas előny, hogy amennyiben a betanítási folyamat sikeres, és a módszer működik, bármelyik további magyar folyóiratra alkalmazható változtatás nélkül. Ez pedig azt jelenti, hogy több hónap helyett néhány óra alatt elkészül az új adatbázis. A betanítást a Rényi Alfréd Matematikai Kutatóintézet Mesterséges Intelligencia Kutatási Osztályának munkatársával végezzük majd, és bár a módszer nem hibátlan, okunk van feltételezni, hogy a címkerendszer leglényegesebb részeire jól alkalmazható. Ez a kutatás tervezett következő lépése, amely a kutatáson túlmutató, hatalmas anyag feldolgozását lehetővé tevő, Magyarországon eddig nem alkalmazott módszert adhat a kezünkbe.
Tartalomjegyzék navigate_next
Keresés a kiadványban navigate_next

A kereséshez, kérjük, lépj be!
Könyvjelzőim navigate_next
A könyvjelzők használatához
be kell jelentkezned.
Jegyzeteim navigate_next
Jegyzetek létrehozásához
be kell jelentkezned.
    Kiemeléseim navigate_next
    Mutasd a szövegben:
    Szűrés:

    Kiemelések létrehozásához
    MeRSZ+ előfizetés szükséges.
      Útmutató elindítása
      delete
      Kivonat
      fullscreenclose
      printsave