Téglás Szilvia, Tőkés László

Bevezetés a Stata használatába - Feladatgyűjtemény

Egyetemi jegyzet

6. Feladatok az Adatbázis-manipuláció témakörhöz

Ismétlő kérdések

Melyik parancsokat használhatjuk új változók létrehozására?
Mire kell figyelnünk a változók elnevezésekor?
Mi a recode parancs előnye a replace paranccsal szemben?
Melyik parancspárok szolgálnak a numerikus és szöveges változók közti átváltásra? Melyek alakítják a szövegest numerikussá, és melyek a numerikust szövegessé?
Mit tesz a collapse parancs?

Feladatok

A feladat elvégzéséhez nyisson egy .do fájlt, és abban dolgozzon! Először hívja be Statába a bevstata_fiktiv_product.xls fájl bevstata_fiktiv_price_shops munkalapját! Ez az adatbázis négy fiktív termék bruttó árait tartalmazza 5 különböző üzletben 1990 és 2014 között.
1. Hozzon létre egy változót shop1_net néven, amely az első üzlet nettó termékárait tartalmazza (legyen az áfa 20%)!
2. Hozzon létre egy változót shop1_tax néven, amely az első üzlet árainak áfatartalmát jelzi (pénzben kifejezve)!
3. Hozzon létre egy változót price_max néven, amely a termékek adott évben számított, mind az 5 üzletre vizsgált maximális árát tartalmazza!
4. Hozzon létre egy változót price_mean_shop3 néven, amely a termékek harmadik üzletre vonatkozó átlagárát mutatja, minden évre összesítve!
5. Hozzon létre egy változót product_id néven, amely egy numerikus termékazonosítót tartalmaz a korábbi szöveges helyett!
Nyissa meg a bevstata_education.xls fájl Stata_data1 munkalapját, amely országok oktatási rendszerére vonatkozó adatokat tartalmaz (forrás: Világbank)!
1. Keresse meg és törölje az adatbázisból azokat az értékeket, amelyek feltehetően nem országot, hanem valamilyen ismérv szerinti csoportot jelölnek!
2. Hozzon létre egy változót, amely az alapfokú oktatás leghosszabb és legrövidebb időtartamának különbségét tartalmazza!
3. Készítsen egy változót, amely az expenditure változó évenkénti átlagát mutatja!
4. Készítsen egy dummy változót, amely akkor vesz fel 1-es értéket, ha az adott ország az adott évben az átlagon felüli expenditure értékkel rendelkezik, és 0-t egyébként!
5. Hozzon létre egy új változót country_name_short néven, amely az országnevek első három betűjét tartalmazza!
6. Készítsen egy adatbázist, amely 2000 után mutatja minden változó országonkénti átlagát! Mentse el az adatbázist más néven!
Nyissa meg a bevstata_gdppercap.xls fájl Stata_data nevű fülét! A következő feladatokat ezen az adatbázison oldja meg!
1. Hozzon létre egy maximum nevű változót, amely minden megfigyelés esetén a megfigyelt idősor legnagyobb GDP/fő értékét tartalmazza!
2. Hozzon létre egy minimum nevű változót, amely minden megfigyelés esetén a megfigyelt idősor legkisebb GDP/fő értékét tartalmazza!
3. Hozzon létre egy range nevű változót, amely az adott megfigyelés GDP/fő terjedelmét mutatja!
4. Meglepődik-e, hogy Horvátországra is definiálva van a változó?
5. Hozzon létre egy europe nevű változót, amely 1, ha az adott ország európai, 0, ha Európán kívüli, és missing, ha nem országról, hanem egy országcsoportról van szó!
6. Hozzon létre a europe változóból egy dummy-készletet!
7. Hozzon létre egy ID nevű numerikus változót, amely egyértelműen azonosítja az egyes országokat/országcsoportokat!
8. Hozzon létre egy country nevű dummy változót, amely 1-es értékkel bír, ha az adott megfigyelés ország, és 0 egyébként!
9. Hozzon létre integer_date nevű változókat (integer_1990, integer_1991 stb.), amelyek mindig az adott ország adott évi GDP/fő adatának egészrészét tartalmazzák!
10. Hozzon létre egy ln_min nevű változót, amely a korábban létrehozott minimum nevű változó logaritmusát tartalmazza!
11. Hozzon létre egy big_range nevű változót, amely 1-gyel egyenlő, ha az adott megfigyelés range nevű változója az összes megfigyelés alapján számított átlagos terjedelemnél nagyobb vagy azzal egyenlő, és 0 egyébként! Ha esetleg létrehoz segédváltozókat, azokat a folyamat végén törölje! Használhat makrót is.
12. Hozzon létre egy gdp_2010_th nevű változót, amely a 2010-es adatokat tartalmazza 1000 $-ban (az eredeti adatok $-ban szerepelnek) két tizedesjegyre kerekítve!
13. Hozzon létre egy mean nevű változót, amely az adott megfigyelés átlagos GDP/fő adatát tartalmazza!
14. Hozzon létre egy group_mean nevű változót, amely az európai országokra az európai országok mean változójának átlagát tartalmazza, a nem európai országokra a nem európai országok mean változójának átlagát, a három országcsoportra pedig saját mean értéküket!
15. Hozzon létre egy poor nevű változót, amely 5-tel egyenlő, ha az adott megfigyelés mean változója kisebb, mint a világ GDP/fő adata 2010-ben (használjon makrót!), és 6-tal egyenlő egyébként!
16. Módosítsa az előző pontban létrehozott változót úgy, hogy annak értéke 5 helyett 1 legyen, 6 helyett pedig 0! Próbálja ezt meg kétféle parancs segítségével is!
17. Ellenőrizze, hogy az országok neveiben nincs-e felesleges space-torlódás akár az első karakter előtt, akár az utolsó karakter után! Csak ellenőrizze a neveket, ne módosítsa azokat! Az ellenőrzés után az ellenőrző változókat (ha keletkeztek) dobja ki!
18. A 2008-as GDP-értékek alapján sorolja négy kategóriába az országokat (csak az országokat) annak alapján, hogy melyik kvartilisbe tartoznak (első, második, harmadik, negyedik), majd hozzon létre egy gdp08 nevű változót, amelynek értékei a kvartilisbe való tartozás alapján rendre 1, 2, 3 és 4. Használjon makrókat!
19. Az előbbi pont alapján hozzon létre egy gdp08_str nevű szöveges változót, amelynek értékei rendre a következők: first, second, third, fourth.
20. Hozzon létre egy új adatbázist, amely a 2010-es év adatának minimumát, maximumát és szórását tartalmazza!
21. Hozzon létre egy új adatbázist, amely a 2010-es év adatának minimumát, maximumát és szórását tartalmazza, de úgy, hogy az e) pontban létrehozott változó alapján csoportokat képez!
Nyissa meg a bevstata_fogyar_hun.xls fájl Stata_data munkalapját! Az adatbázis különböző termékcsoportok fogyasztói árindexét tartalmazza (előző év=100).
1. Vizsgálja meg, hogy az egyes években melyik kategória árai emelkedtek leginkább és a legkevésbé!
2. Hozzon létre minden termékcsoporthoz egy változót, amely az adott termékcsoport teljes árváltozását mutatja, 1985-től az adott évig kumulálva. (Tehát például 1990-ben az 1985 és 1990 közötti teljes árváltozást mutatja, 2000-ben az 1985 és 2000 közöttit, stb.) Használja az adatbázist jelen szerkezetében (új segédváltozókat természetesen hozhat létre, de azokat a kérdés megválaszolása után törölje)! Mely termékcsoport kumulált árváltozása volt a legnagyobb 1985 és 2014 között?
3. Mely termékcsoport kumulált árváltozása volt a legnagyobb 1985 és 2014 között? (A köztes évekre jelen feladatpontban nem szükséges kiszámolni a kumulált értéket.) A számításhoz transzponálja (mátrixművelet értelemben) az adatbázist, keressen ehhez egy megfelelő parancsot, amelynek működését használat előtt tanulmányozza! A feladat végrehajtása után ellenőrizze, hogy az itt kapott értékek megegyeznek-e az előző pontban kapott értékekkel (ha nem, akkor valamelyik megoldása hibás)!
4. Volt-e olyan termékkategória, amelynek ára csökkent két év között? Mely években?