Az új adatkezelés lehetőségei és kockázatai a társadalomkutatásban

Possibilities and Risks of New Data Management in Social Research

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Nagy Péter Tibor1, Veroszta Zsuzsanna2

Jegyzet elhelyezéséhez, kérjük, lépj be.!

1egyetemi tanár, Eötvös Loránd Tudományegyetem Társadalomtudományi Kar, Wesley János Lelkészképző Főiskola

Jegyzet elhelyezéséhez, kérjük, lépj be.!

nagypetertibor@gmail.com

Jegyzet elhelyezéséhez, kérjük, lépj be.!

2tudományos főmunkatárs, Központi Statisztikai Hivatal Népességtudományi Kutatóintézet

Jegyzet elhelyezéséhez, kérjük, lépj be.!

veroszta@demografia.hu
Összefoglaló

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A legtágabb perspektívában minden olyan „új adatról” gondolkodunk, amely a jelenben folyamatosan termelődik, és kezelhetővé tételük strukturálásra vagy újrastrukturálásra készteti a kutatót, átalakítva ezzel a kutatási eljárásmódokat is. Szűkülő fókuszunk ezután a nem kutatási céllal létrejött, ám strukturált mikroadatokra helyeződik át, melyeknek kutatási célú felhasználása egyfelől megköveteli a maga tudományos validációs eljárásait, másfelől azonban az adatfelhasználás új lehetőségei felé mozdítja el az empirikus vizsgálatokat. Legszűkebb perspektívában ezen lehetőségek megmutatása írásunk célja.
Abstract

Jegyzet elhelyezéséhez, kérjük, lépj be.!

In the broadest perspective we are thinking of any kind of “new data” that is constantly produced in the present forcing the researcher to structure or re-structure them, to modify the research methods too. Our shrinking focus concentrates for micro data, which are produced definitely for non-research purposes. Using them for research purposes on the one hand, require their own scientific validation procedures, on the other hand open new perspectives. In the narrowest perspective the goal of our paper is to show these new opportunities.
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Kulcsszavak: társadalomkutatás, Big Data, mikroadat, adatkapcsolás, longitudinális
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Keywords: social science, Big Data, micro data, data-merging, longitudinal
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

DOI: 10.1556/2065.179.2018.5.9
 

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Évszázadok óta termelődnek olyan adatok, melyeket a kutató kigyűjtött, de a számítástechnika előtti korban csak egyediségüktől megfosztva és csak aggregált formában kerülhettek tudományos felhasználásra. Az aggregáció a „változók” kombinálhatóságának természetes határt szabott. Más esetekben az adatok „a változók kombinálhatóságát” megőrző helytörténeti elemzések formájában dolgoztathattak fel. Ez utóbbi viszont kizárta az általánosíthatóság reális igényét. Voltak ugyan olyan történészi programok, melyek szisztematikus helytörténeti elemzések utólagos összekapcsolhatóságát vették célba – az Ila Bálint kezdeményezte megyei monográfiasorozat, vagy az 1929-es Zsidó Lexikon hitközség címszósorozata példa erre –, de részben e szakirodalom korabeli szisztematikus feldolgozásának gyakori elmaradása, részben az utólagos – napjainkban folyó – adatbázisba szervezés nyomán egyértelművé váló adathiányok jelzik e törekvések tényleges korlátait. Ha pedig az adattömeg felhasználásának célja nem egyes jelenségek gyakoriságának megragadása volt – például jelentős életpályákra vonatkozó adatgyűjtések esetében –, a kutatóknak eleve le kellett mondaniuk arról, hogy konkrét tárgyukra vonatkozóan „minden” adatot összeszednek. Hiszen a „jelentős” életpályák, „jelentős” egyszeri történések épp azért minősíttettek önálló feldolgozásra méltónak, mert mind kortársaikra, mind az utókorra olyan hatást gyakoroltak, hogy távoli levéltárakban, félreeső sajtótermékekben is maradtak velük kapcsolatos adatok. Az újkori levéltári és könyvészeti termelés nagyságrendje pedig gyakorlatilag kizárta, hogy a kutató – egy konkrét személy vagy esemény nyomai után kutatva – minden olyan adatforrást átnézzen, ahol semmilyen logikus előfeltevés nem valószínűsítette vonatkozó adat felbukkanását. A személyekkel vagy egyedi történésekkel kapcsolatos különböző forrásokban megőrzött adatok feltárása és összekapcsolása csak a források tömeges digitalizálása nyomán vált lehetségessé, amit az olvasó akkor tapasztal meg leginkább, ha sok millió oldalas szövegtárakban – mint az Adtplus vagy az országos levéltár honlapja – indít el egy-egy névre vagy évszámra vonatkozó keresést. A kutatási célra felvett modern személysoros szociológiai adatbázisokhoz szokott, korrelációs vagy oksági hipotéziseket feltevő kutató számára a régi szövegek vagy táblázatok egyszerű szkennelésen alapuló digitalizált változata nem elégséges: ezek csak alapanyagul szolgálhatnak a kutatásra alkalmas adatbázisok felépítéséhez. E régi források vagy régi feldolgozások adatbázisba szervezése után azonban már az egyedi adatok tömeges összekapcsolása – avagy kis aggregátumok valószínűségi összekapcsolása – is lehetségessé válik. A régi adatok egy része a kortársak számára is adatként funkcionált (például adóösszeírások, anyakönyvek). Szociológiai vagy tudományos adattá válásuk az összekapcsolás, a tömegesedés, illetve – kortársak számára elvileg talán ismert, de gép nélkül elképesztő időigényű – matematikai elemzések révén történik meg. Vannak azonban olyan történeti források, melyeket a kortársak semmilyen értelemben nem adatként éltek meg: ilyenek a történeti térképek, ahol a települések, az úthálózat, a csatornahálózat adatait önmagában is elemzésnek vetheti alá a számítógéppel felszerelt kutató, de összekapcsolhatja adataikat szöveges forrásokkal, illetve napjaink térképadataival is. Ilyen a templomképek, családi fotók millióinak elemezhetősége is. De nem élték meg „adatteremtésként” a szavak és kifejezések megválasztását az írók és újságírók, a magánleveleket írók, és az államigazgatási szövegeket, vállalati ügyiratokat termelők sem. Mindezeknek a forrásoknak a használata, „adattá alakítása”, adatként elemzése a következő évtizedek történészei számára olyan lehetőségeket nyit a számítástechnika előtti évszázadok elemzéséhez is, amelyek folyamatosan újraalkotják a múltról szóló képünket.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A kutatás számára rendelkezésre álló „régi adatok” mellett napjaink jelenségeiről a számítástechnika tömeges alkalmazása következtében korábban elképzelhetetlen mennyiségű új adat keletkezik, melyek egyrészt befolyásolják a régebbi dolgok, párhuzamos trendek „kifutásáról” való tudásunkat – miáltal a napjainkról szóló adatok robbanásszerű bővülése a közelmúlt történetének folyamatos átírására késztet bennünket –, másrészt a „gyorsuló időben” maguk is hamar történeti forrássá válnak. Nyugodtan feltételezhetjük, hogy amiképpen az első adatrobbanás korának történészei és levéltárosai nem látták át mindazokat a módszereket, ahogyan koruk adattömegét – például a frissen megszületett napisajtót, az alfabetizmus általánossá válása következtében nagyságrendekkel megnövekedett magánlevelezést, a városias ügyintézés, üzemszerű termelés exponenciálisan megnőtt írásbeliségét – a jövő tudósai használni fogják (vagy használhatnák, ha megőrizték volna…), úgy valószínűleg ma sem látjuk pontosan, hogy a spontán keletkező digitális adattömeg hogyan hasznosul majd a jövőben. Mint ahogy azt sem, hogy az evidence based döntéshozás korában az egymással konkuráló álláspontok alátámasztására felépített strukturált, „tudományos” adattömegrész mennyire éli túl az alátámasztandó álláspont kisebbségben maradását.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

E gondolatmeneten haladva tovább elméleti fejtegetésünk során a „jövő történészeire gondolva” az új adatok természetéről és kezeléséről két fő momentumot emelnénk ki. Egyfelől az új dolgokról szóló új, de strukturálatlan adatok keletkezésének társadalmi természetét, másfelől a strukturált, illetve „tudományos” adat születését és visszatöltődését az adatok körforgásába. Ezt követően a szakadatlanul keletkező „új adatok” újrastrukturálásának gyakorlati kutatási szempontjait, lehetőségeit és elemi szabályait gondoljuk át, a folyamatosan frissülő nyilvántartási – regiszter – adatok tudományos célú felhasználásának konkrét példáin.
Új, strukturálatlan adatok új dolgokról

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A régi adatok digitalizálásának, történeti adatbázisba szervezésének valamilyen tudományos motivációja van. Az adatbővülési folyamatok teljesen más típusát jelenti az a napról napra az interneten megjelenő adattömeg, melyet termelője közigazgatási, politikai, üzleti, társadalmi vagy „társasági”, esetleg magánéleti célból tesz nyilvánossá. Ez az adattömeg a közigazgatási, politikai, üzleti stb. valóságot soha nem látott mértékben teszi kutathatóvá. Az egyedi konkrét eseményekre irányuló tudományos kutatás szempontjából – a gyakorlatilag korlátlan ingyenes tárhelykapacitások megnyílása óta – az adattermelődés és hozzáférés legfontosabb korábbi korlátja tovatűnt. Még két évtizeddel ezelőtt is biztosak lehettünk abban, hogy – az anyagi erő különbözőségénél fogva – nem mindenki publikálhatja adatait vagy mondanivalóját, akinek szándéka van azokat publikálni. A nem szöveges, hanem képi, különösen mozgóképi anyagok vonatkozásában ez még tíz éve is igaz volt.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Természetesen az egyedi történésekre vonatkozó kutatásnak továbbra is van négy alapvető korlátja.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az egyik, hogy semmilyen mód nincs annak ellenőrzésére, hogy egy interneten publikált adat hogyan keletkezik „valójában”, ki vagy kik készítették ténylegesen, az adatot készítők láthatták-e a kontextust, amelybe az általuk szolgáltatott adat vagy szövegrészlet illeszkedik, hogyan és miért módosult a szöveg, illetve az adat hogyan viszonyul a „valósághoz” (például dolgok ténylegesen a leírttól eltérő darabszámához vagy a tényleg elhangzott, a megjelentnél sokkal keményebb hozzászóláshoz, egy békésen üldögélő közönséget mutató kamera látószögéből gondosan kihagyott – bár az összes jelenlévő számára jól látható – kompromittáló szimbólumhoz stb.). Természetesen az internet előtti adatokkal kapcsolatban is igaz ez, csak az adatpublikáló felületek akkor még korlátozott száma valószínűsíthetővé tette, hogy a „valóságtól” történő eltérésre valaki azonnal felfigyel, és az eltérés lelepleződik.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A második, hogy az internetes adat használója minden korábbinál nagyobb mértékben ki van téve a hamisításnak. A hagyományos adatokat is lehetett hamisítani – azt a látszatot kelteni, hogy mástól származnak, mint akitől származnak –, de a csalás a Photoshop előtti korszakban jelentős munkabefektetést igényelt, s szakértők általában ki tudták zárni a hamis iratokat, hamis fotókat.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A harmadik, hogy semmilyen mód nincs annak ellenőrzésére, hogy maga az adattermelő nem termelt e belső használatra a nyilvánosan megjelent adattal teljes mértékben szembenálló adatot, akár tömegesen is. Természetesen az internet előtti korszakban is tömeges volt a kettős valóság – azaz voltak „belső jelentések” –, de sosem volt olyan könnyű és olcsó hamis vagy érdektelen adattömegbe „fullasztani” az érdeklődőt.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

A negyedik ellentmondás pedig, hogy semmilyen mód nincs annak ellenőrzésére, hogy valamely kérdésben az adott ügyben érdekelt és aktív, de a nyilvánosságban nem érdekelt szereplő milyen adatokat termelt. Természetesen ez is jelen volt korábban, de minthogy az aktív irattárból a levéltárba kerülésre csak sok év után lehetett számítani, a kinyomtatásnak pedig költségei voltak, mindenki számíthatott rá, hogy egy döntésmechanizmusnak vannak a nyilvánosság számára láthatatlan anyagai is. Az e-kormányzás korában bármely döntéshez szükséges adat „láthatatlansága” csak abból eredhet, hogy az adat tulajdonosa nem akarja azt megosztani a nyilvánossággal.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Egészen más viszonyok jellemzik a kutatott tömeges jelenségeket. A találat-százezrek összehasonlítása olyan problémákat vet fel, amelyek a hagyományos adatok esetében nem merülnek fel. Ilyen például az adattöbbszöröződés, illetve a keresőmotorok sajátosságai, melyek – egyértelműen üzleti érdekek mentén – „fel-”és „lesúlyoznak” jelenségeket. A hagyományos adattömeg esetében az adatokat létrehozó, tároló, rendelkezésre bocsátó rendszer (például az államigazgatás vagy egy konkrét sajtóvállalat) érdekei áttekinthetők. Az internetes adattömeg esetében a keresőmotorokat vezérlő üzleti és reklámérdekek áttekinthetetlenek.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az internetes adattömeg „nagy testvére” a „Big Data”, melynek nagy része közvetlenül nem érhető el az interneten, amely a cégek, az intelligens hálózatok, a magánszektor és az egyéni felhasználók által világszerte és napi szinten előállított óriási adatmennyiséget jelenti. Ez közismerten folyamatosan növekszik, nagyságrendjét ma már csillagászati számokkal szokták meghatározni. Ezzel az adattömeggel persze inkább az informatikusok, mint a társadalomtudósok foglalkoznak. Az adattermelődés korábbi állapotával szemben az alapvető különbség, hogy az egyének mindennapi cselekvéseit korábban részben lehetetlen volt tömegesen adattá szervezve regisztrálni, részben csak tudatos előzetes döntések alapján lehetett – jelentős anyagi ráfordításokkal – regisztrálni és akár üzleti, hatósági, titkosszolgálati vagy kutatási célból felhasználni. A Big Data az az adattömeg, amelyet a minket körülvevő digitális eszközök – elvileg előzetes döntés nélkül szinte mindenről szinte mindent – regisztrálnak. Azaz az adattermelésünk legnagyobb része ma már nem tudatos jellegű.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Mindenképpen igaz azonban, hogy azt, hogy az egy adott másodpercben technikai értelemben mindenképpen létező adattömegből a következő másodpercre vagy a következő napra mi őrződik meg, az adatok birtokosainak érdekei határozzák meg. De a kérdés nem csak a megőrződés. Üzleti vagy kormányzati érdekek és igen komoly erőforrások kellenek ahhoz, hogy a valamiképpen megőrződő strukturálatlan adattömegből társadalomtudósok által már használható adatok váljanak.1
„Tudományos”, strukturált adatok

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Akár az internet, akár a Big Data adattömegéhez képest elhanyagolható nagyságrendű, de a korábbi korok hasonló adattermelésének többszörösét jelenti az a tudatosan strukturált, interneten vagy kiválasztott kör számára zártkörűen hozzáférhetővé tett táblázat-, számítás- és grafikontömeg, amely valamiféle szakértői munka, háttéranyag, tudományos munka.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az evidence based decision gyakorlatilag az egész fejlett világban elterjedt. A már strukturált és emberi fogyasztásra emberi beavatkozással (ha mással nem, egy táblázattermelő syntax megírásával és lefuttatásával) előkészített adattáblák és grafikonok „csapnak össze” az ellenérdekelt felek vitáiban, mely ellenérdekelt felek természetesen saját, általuk vagy általuk is ellenőrizhető adatgyűjtő, -feldolgozó és adatértékelő szervezetek fenntartásában érdekeltek. Mi több, „az ellenérdekelt felek” nélkül működő politikai rendszerek is – tervezésre, de ha arra nem, akkor propagandára – tömegesen érdekeltek strukturált adatok létrehozásában.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Az adatgyűjtő, adatfeldolgozó és adatértékelő szervezetek pedig saját erő- és érdekviszonyaikkal alapvetően meghatározzák a tudományos célokból működő társadalomtudós helyzetét is. A strukturált adat, amellyel a társadalomtudós dolgozni kénytelen, magán viseli születésének körülményeit és az előállítók (esetleg szintén valamiféle társadalomtudósok) lét- és tudati viszonyait is. A tanulmányokba „beledolgozott” adatra – tekintettel arra, hogy válogatás és interpretáció eredménye – fokozottan igaz ez.

Jegyzet elhelyezéséhez, kérjük, lépj be.!

Nyilvánvaló, hogy számos társadalomtudományi mű esetében elmosódik a határ a politikai, kormányzati, üzleti erőviszonyokat közvetlenül figyelembe vevő alkalmazott kutatási publikációk, jelentések és a „tiszta tudomány” céljait szolgáló publikációk között. A publikációk termelői – finanszírozási vagy más okokból – gyakran érdekeltek abban, hogy konkrét érdekek szolgálatában álló adatközléseiket és adatelemzéseiket „tisztán tudományosként” tüntessék fel, vagy hogy valójában „tisztán tudományos” – azaz kizárólag szerzőjének a tudományos közösségben való előrejutását célzó vagy önkifejezési vágyát kielégítő, illetve a tudományos igazságkeresés transzcendentális igényét kielégítő – munkát alkalmazójuk vagy megrendelőjük érdekeit szolgáló praktikus műnek tüntessenek fel.

Jegyzet elhelyezéséhez, kérjük, lépj be.!