Bevezetés a Stata használatába - Feladatgyűjtemény
Egyetemi jegyzet
8. Feladatok az Adatbázis-specifikus parancsok témakörhöz
- Melyik négy alapvető adatbázistípust említi a jegyzet?
- Melyik parancsokkal mondhatjuk meg a Statának, hogy idősoros, illetve paneladatokkal fogunk dolgozni?
- Milyen műveleteket tudunk végezni idősor-operátorokkal?
- Melyik paranccsal tudjuk feltölteni az idősorunkban a „lyukakat”?
- Mi az a két alapstruktúra, amelyet egy paneladatbázis felvehet? Mi ezek tartalma? Melyik parancs segíti a köztük történő átváltást?
- Nyissa meg Statában a bevstata_fiktivproduct.xls fájl bevstata_fiktiv_price_shops_A munkalapját! Ez a korábban már megismert fiktív termékárakat tartalmazó adatbázisból csak az A termék adatait tartalmazza.
- Állítsa be az adatbázist idősoros adatbázisnak a year változó alapján. Miről árulkodik a művelet során az output ablakban felbukkanó megjegyzés?
- Valamelyik ismert parancs felhasználásával töltse fel a hiányzó évekkel az adatbázist, majd a többi változó szerint így kapott missing értékeket tetszőleges módszerrel töltse fel!
- Készítsen egy változót shop2_l néven, amely a 2. bolt árait tartalmazza egy év késleltetéssel!
- Készítsen egy változót shop3_f néven, amely a 3. bolt árait tartalmazza egy évvel előregörgetve!
- Nyissa meg Statában a bevstata_fiktivproduct.xls fájl bevstata_fiktiv_price_cost munkalapját!
- Dobja ki az adatbázisból a 2010 előtti és 2014 utáni megfigyeléseket!
- Alakítsa az adatbázist úgy, hogy négy cost változó jöjjön létre, amelyek a termékek különböző évenkénti árait mutatják!
- Most alakítsa vissza az adatbázist az eredeti alakjára!
- Végül pedig alakítsa úgy, hogy szintén négy cost változó jöjjön létre, de évenként mutassa a négy különböző termék árát!
- Nyissa meg a bevstata_education.xls fájl Stata_data1 munkalapját!
- Milyen elrendezésű az adatbázis (wide, long)?
- Az ehhez hasonló hosszú idődimenzióval rendelkező adatbázisok esetében gyakran előfordul, hogy sok missing értéket tartalmaznak. Tisztításként először dobja ki azokat a változókat, amelyek az esetek több mint 70%-ában missing értéket tartalmaznak! Ezután keresse meg a legkevesebb missing értéket tartalmazó változót (ami nem a year, country_name vagy country_code), és nézze meg, vannak-e olyan évek, amelyek esetében ez teljesen hiányzik. Amennyiben talál ilyet, törölje azokat az éveket!
- Állítsa be az adatbázist paneladatbázisnak a megfelelő ID változók alapján!
- Hozzon létre egy változót, amely a prim_dur változó egy évvel előregörgetett értékét mutatja, majd hozzon létre egy dummy változót, ami akkor 1, ha az előregörgetett érték és az eredeti érték nem egyezik meg, egyébként 0!
- Hozzon létre egy változót, amely a prim_dur változó és az egy évvel korábbi értének különbségét mutatja, elosztva a prim_dur változóval!
- Importálja a bevstata_pop.xls nevű fájl Stata_data fülét! A következő feladatokat ezen az adatbázison oldja meg!
- Milyen elrendezésű az adatbázis (wide, long)?
- Ha talál olyan változót, amely numerikusnak tűnik, de mégis szövegesként van tárolva, akkor ezt kódolja numerikussá, majd ellenőrizze, hogy tényleg csak számok szerepelnek, szerepeltek!
- Ellenőrizze, hogy a panel kiegyensúlyozott-e (minden ország esetén szerepel-e minden év 1950–2010 között)! Amennyiben nem, valamilyen ismert parancs segítségével hozzon létre kiegyensúlyozott panelt! Generált-e új megfigyeléseket, ha igen, mennyit országonként, és mennyit összesen?
- Tisztítsa az adatbázis POP nevű változóját az alábbi alternatív módszerekkel úgy, hogy minden módszer végeredményét elmenti egy új változóban! Az új változókat lássa el note-okkal, amikből kiderül a tisztítási módszer lényege!
- da) Minden hiányzó értéket a következő évi értékkel helyettesítsen!
- db) Minden hiányzó értéket a két évvel korábbi értékkel helyettesítsen!
- dc) Keressen olyan évet, ahol gyanúsan nagy – legalább 30%-os – az ugrás az előző évhez képest (akár csökkenés, akár növekedés)! A missingeket hagyja figyelmen kívül a vizsgálat során! Állítsa a problémásnak vélt éveket missingre!
- dd) A dc) pont eredményeiből kiindulva pótolja a hiányzó értékeket az előző és a következő év súlyozatlan számtani átlagával!
- de) Az dc) pont eredményeiből kiindulva pótolja a hiányzó értékeket az adott ország 1990 és 2010 közötti átlagos értékével!
- df) Ismét az dc) pont eredményeit vegye kiindulópontnak! Számolja ki országonként azok teljes idősorára az évek közötti változás egyszerű számtani átlagát, majd a hiányzó éveket töltse fel úgy, hogy az előző évi megfigyeléshez hozzáadja az imént kiszámított átlagot!
- dg) Keressen roundtrippereket, azaz olyan megfigyeléseket, amelyek kilógnak az idősorból! Jelölje egy dummy változóval azon megfigyeléseket, amelyek legalább 20%-kal eltérnek az őket megelőző és az utánuk következő év értékeitől! (Például: 10, 15, 9.) Ne feledkezzen meg a missing értékek speciális tulajdonságáról!
- dh) Az imént megjelölt megfigyelések POP értékét állítsa missingre!
- di) Mentse el az új adatbázist!
- Alakítsa át (ha szükséges) az imént mentett adatbázist megfelelő struktúrába (wide, long), majd fűzze össze az eredeti adatokat tartalmazó adatbázissal (amelyet megtalál a bevstata_pop.xls fájl Original nevű fülén), és hasonlítsa össze az eredeti és az Ön által létrehozott változókat! Melyik tisztítási módszer hozta a legjobb eredményeket?
- Importálja a bevstata_GDPC1.xls fájl Stata_data munkalapját!
- Hozzon létre a DATE nevű változóból egy year nevűt és egy quarter nevűt, amelyek rendre csak az évet és a negyedévet tartalmazzák! Címkézze is az új változókat!
- Hozzon létre négy különböző filterező eljárással (BK, BW, CF, HP) trend- és cikluskomponenseket a GDP-adat logaritmusából, és címkézze is az új változókat! Hasonlítsa össze a trendkomponenseket!
- Nyissa meg a bevstata_gdppercap.xls fájl Stata_data2 fülén található adatbázist!
- Magyarország és Szlovákia kivételével az összes többi megfigyelést dobja ki! Hozzon létre egy olyan adatbázist, amely három oszlopot tartalmaz: year (az évek 1990–2012 között), gdppercapHUN és gdppercapSLO, amelyek rendre a magyar és a szlovák GDP-adatot tartalmazzák a megadott évekre! TIPP: használja a reshape, gen és egen parancsokat, a felesleges változókat pedig a drop parancs segítségével távolítsa el!
- Hajtsa végre a következőket:
- Arra alkalmas tesztekkel tesztelje, hogy a két idősor tartalmaz-e egységgyököt! Előtte ellenőrizze (pl. egy vonaldiagram felrajzolásával), hogy az idősorban van-e lineáris trend!
- Lineáris interpoláció segítségével töltse fel a magyar idősor lyukait a szlovák adatok alapján, és az új, interpolált idősort mentse gdppercapHUNi néven. Címkézze is a változót!
- Hozza létre a szlovák idősor differenciázott változatát gdppercapSLOdiff néven, címkézze azt, majd illesszen rá ARMA(1,1) és ARMA(2,0) modelleket!
Tartalomjegyzék
- Bevezetés a Stata használatába Feladatgyűjtemény
- Impresszum
- 1. Előszó
- 2. Feladatok az Első lépések, alapok témakörhöz
- 3. Feladatok az Adatok importálása, adatok elrendezése és fajtái témakörhöz
- 4. Feladatok az Adatbázisok és változók jellemzése témakörhöz
- 5. Feladatok a Reprodukálhatóság és nyomonkövethetőség témakörhöz
- 6. Feladatok az Adatbázis-manipuláció témakörhöz
- 7. Feladatok a Több adatbázist igénylő műveletek témakörhöz
- 8. Feladatok az Adatbázis-specifikus parancsok témakörhöz
- 9. Feladatok a Becslési eljárások témakörhöz
- 10. Feladatok a Postestimation parancsok témakörhöz
- 11. Feladatok a Vizuális megjelenítés témakörhöz
- 12. Összefoglaló feladatok
Kiadó: Akadémiai Kiadó
Online megjelenés éve: 2017
ISBN: 978 963 454 019 9
Hivatkozás: https://mersz.hu/teglas-tokes-bevezetes-a-stata-hasznalataba-feladatgyujtemeny//
BibTeXEndNoteMendeleyZotero