Téglás Szilvia, Tőkés László

Bevezetés a Stata használatába - Feladatgyűjtemény

Egyetemi jegyzet

8. Feladatok az Adatbázis-specifikus parancsok témakörhöz

Ismétlő kérdések

Melyik négy alapvető adatbázistípust említi a jegyzet?
Melyik parancsokkal mondhatjuk meg a Statának, hogy idősoros, illetve paneladatokkal fogunk dolgozni?
Milyen műveleteket tudunk végezni idősor-operátorokkal?
Melyik paranccsal tudjuk feltölteni az idősorunkban a „lyukakat”?
Mi az a két alapstruktúra, amelyet egy paneladatbázis felvehet? Mi ezek tartalma? Melyik parancs segíti a köztük történő átváltást?

Feladatok

Nyissa meg Statában a bevstata_fiktivproduct.xls fájl bevstata_fiktiv_price_shops_A munkalapját! Ez a korábban már megismert fiktív termékárakat tartalmazó adatbázisból csak az A termék adatait tartalmazza.
1. Állítsa be az adatbázist idősoros adatbázisnak a year változó alapján. Miről árulkodik a művelet során az output ablakban felbukkanó megjegyzés?
2. Valamelyik ismert parancs felhasználásával töltse fel a hiányzó évekkel az adatbázist, majd a többi változó szerint így kapott missing értékeket tetszőleges módszerrel töltse fel!
3. Készítsen egy változót shop2_l néven, amely a 2. bolt árait tartalmazza egy év késleltetéssel!
4. Készítsen egy változót shop3_f néven, amely a 3. bolt árait tartalmazza egy évvel előregörgetve!
Nyissa meg Statában a bevstata_fiktivproduct.xls fájl bevstata_fiktiv_price_cost munkalapját!
1. Dobja ki az adatbázisból a 2010 előtti és 2014 utáni megfigyeléseket!
2. Alakítsa az adatbázist úgy, hogy négy cost változó jöjjön létre, amelyek a termékek különböző évenkénti árait mutatják!
3. Most alakítsa vissza az adatbázist az eredeti alakjára!
4. Végül pedig alakítsa úgy, hogy szintén négy cost változó jöjjön létre, de évenként mutassa a négy különböző termék árát!
Nyissa meg a bevstata_education.xls fájl Stata_data1 munkalapját!
1. Milyen elrendezésű az adatbázis (wide, long)?
2. Az ehhez hasonló hosszú idődimenzióval rendelkező adatbázisok esetében gyakran előfordul, hogy sok missing értéket tartalmaznak. Tisztításként először dobja ki azokat a változókat, amelyek az esetek több mint 70%-ában missing értéket tartalmaznak! Ezután keresse meg a legkevesebb missing értéket tartalmazó változót (ami nem a year, country_name vagy country_code), és nézze meg, vannak-e olyan évek, amelyek esetében ez teljesen hiányzik. Amennyiben talál ilyet, törölje azokat az éveket!
3. Állítsa be az adatbázist paneladatbázisnak a megfelelő ID változók alapján!
4. Hozzon létre egy változót, amely a prim_dur változó egy évvel előregörgetett értékét mutatja, majd hozzon létre egy dummy változót, ami akkor 1, ha az előregörgetett érték és az eredeti érték nem egyezik meg, egyébként 0!
5. Hozzon létre egy változót, amely a prim_dur változó és az egy évvel korábbi értének különbségét mutatja, elosztva a prim_dur változóval!
Importálja a bevstata_pop.xls nevű fájl Stata_data fülét! A következő feladatokat ezen az adatbázison oldja meg!
1. Milyen elrendezésű az adatbázis (wide, long)?
2. Ha talál olyan változót, amely numerikusnak tűnik, de mégis szövegesként van tárolva, akkor ezt kódolja numerikussá, majd ellenőrizze, hogy tényleg csak számok szerepelnek, szerepeltek!
3. Ellenőrizze, hogy a panel kiegyensúlyozott-e (minden ország esetén szerepel-e minden év 1950–2010 között)! Amennyiben nem, valamilyen ismert parancs segítségével hozzon létre kiegyensúlyozott panelt! Generált-e új megfigyeléseket, ha igen, mennyit országonként, és mennyit összesen?
4. Tisztítsa az adatbázis POP nevű változóját az alábbi alternatív módszerekkel úgy, hogy minden módszer végeredményét elmenti egy új változóban! Az új változókat lássa el note-okkal, amikből kiderül a tisztítási módszer lényege!
  - da) Minden hiányzó értéket a következő évi értékkel helyettesítsen!
  - db) Minden hiányzó értéket a két évvel korábbi értékkel helyettesítsen!
  - dc) Keressen olyan évet, ahol gyanúsan nagy – legalább 30%-os – az ugrás az előző évhez képest (akár csökkenés, akár növekedés)! A missingeket hagyja figyelmen kívül a vizsgálat során! Állítsa a problémásnak vélt éveket missingre!
  - dd) A dc) pont eredményeiből kiindulva pótolja a hiányzó értékeket az előző és a következő év súlyozatlan számtani átlagával!
  - de) Az dc) pont eredményeiből kiindulva pótolja a hiányzó értékeket az adott ország 1990 és 2010 közötti átlagos értékével!
  - df) Ismét az dc) pont eredményeit vegye kiindulópontnak! Számolja ki országonként azok teljes idősorára az évek közötti változás egyszerű számtani átlagát, majd a hiányzó éveket töltse fel úgy, hogy az előző évi megfigyeléshez hozzáadja az imént kiszámított átlagot!
  - dg) Keressen roundtrippereket, azaz olyan megfigyeléseket, amelyek kilógnak az idősorból! Jelölje egy dummy változóval azon megfigyeléseket, amelyek legalább 20%-kal eltérnek az őket megelőző és az utánuk következő év értékeitől! (Például: 10, 15, 9.) Ne feledkezzen meg a missing értékek speciális tulajdonságáról!
  - dh) Az imént megjelölt megfigyelések POP értékét állítsa missingre!
  - di) Mentse el az új adatbázist!
5. Alakítsa át (ha szükséges) az imént mentett adatbázist megfelelő struktúrába (wide, long), majd fűzze össze az eredeti adatokat tartalmazó adatbázissal (amelyet megtalál a bevstata_pop.xls fájl Original nevű fülén), és hasonlítsa össze az eredeti és az Ön által létrehozott változókat! Melyik tisztítási módszer hozta a legjobb eredményeket?
Importálja a bevstata_GDPC1.xls fájl Stata_data munkalapját!
1. Hozzon létre a DATE nevű változóból egy year nevűt és egy quarter nevűt, amelyek rendre csak az évet és a negyedévet tartalmazzák! Címkézze is az új változókat!
2. Hozzon létre négy különböző filterező eljárással (BK, BW, CF, HP) trend- és cikluskomponenseket a GDP-adat logaritmusából, és címkézze is az új változókat! Hasonlítsa össze a trendkomponenseket!
Nyissa meg a bevstata_gdppercap.xls fájl Stata_data2 fülén található adatbázist!
1. Magyarország és Szlovákia kivételével az összes többi megfigyelést dobja ki! Hozzon létre egy olyan adatbázist, amely három oszlopot tartalmaz: year (az évek 1990–2012 között), gdppercapHUN és gdppercapSLO, amelyek rendre a magyar és a szlovák GDP-adatot tartalmazzák a megadott évekre! TIPP: használja a reshape, gen és egen parancsokat, a felesleges változókat pedig a drop parancs segítségével távolítsa el!
2. Hajtsa végre a következőket:
  - Arra alkalmas tesztekkel tesztelje, hogy a két idősor tartalmaz-e egységgyököt! Előtte ellenőrizze (pl. egy vonaldiagram felrajzolásával), hogy az idősorban van-e lineáris trend!
  - Lineáris interpoláció segítségével töltse fel a magyar idősor lyukait a szlovák adatok alapján, és az új, interpolált idősort mentse gdppercapHUNi néven. Címkézze is a változót!
  - Hozza létre a szlovák idősor differenciázott változatát gdppercapSLOdiff néven, címkézze azt, majd illesszen rá ARMA(1,1) és ARMA(2,0) modelleket!