Téglás Szilvia, Tőkés László

Bevezetés a Stata használatába - Feladatgyűjtemény

Egyetemi jegyzet

4. Feladatok az Adatbázisok és változók jellemzése témakörhöz

Ismétlő kérdések

Sorolja fel a tabulate paranccsal készíthető főbb táblázattípusokat, és foglalja össze tartalmukat!
Melyik parancsot használná arra, hogy egyértelmű azonosítókat keressen a változók között?
Melyik parancs használható két numerikus változó értékeinek összehasonlítására?
Melyik paranccsal törölheti a duplikátumokat az adatbázisból?
Mi a különbség a sort és az order parancsok közt?
6. Mely súlyozási módszereket ismeri a Stata?

Feladatok

Nyissa meg a Stata beépített adatbázisai közül a lifeexp nevűt! A fejezetben tanult parancsok felhasználásával, a Viewer ablak megnyitása nélkül válaszoljon az alábbi kérdésekre!
1. Hány megfigyelést és hány változót tartalmaz az adatbázis? Sorolja fel a szöveges és numerikus változókat!
2. Egyértelmű azonosító-e a country változó?
3. Mi a lexp változó átlaga, és mi az 50. percentilise?
4. A tabulate parancs használatával nevezze meg a régiókat és a hozzájuk tartozó gyakoriságokat!
5. Mutassa meg a lexp változó átlagát és 50. percentilisét csak a dél-amerikai országokra (S.A)!
6. Változtassa meg úgy a változók sorrendjét, hogy a country és a region változók helyet cseréljenek!
Hívja be Statába a bevstata_fiktivproduct.xls fájl bevstata_fiktiv_price_shops nevű munkalapját! Ez az adatbázis 4 termék árait mutatja 5 üzletben, több éven keresztül.
1. Mely éveket tartalmazza az adatbázis?
2. Cserélje meg az első két változó sorrendjét!
3. Rendezze az adatbázis megfigyeléseit a shop1 változó alapján!
4. Mutassa meg a shop3 változó legfőbb leíró statisztikáit!
5. Hasonlítsa össze a shop1 és shop3 változókat!
6. Hozzon létre egy táblázatot, amely termékenként mutatja a shop1 és shop2 változók átlagát és szórását!
Hívja be a parancssorba beírt parancs segítségével a bevstata_inflacio.xls fájl Stata_data nevű fülét! A következő feladatok mindegyike ezen állományra vonatkozik.
1. Hány szöveges és hány numerikus változó van az adatbázisban, és milyen tárolási módot használunk?
2. Hány megfigyelés van az adatbázisban?
3. Tekinthetjük-e a Hungary nevű változót egyértelmű megfigyelésazonosítónak?
4. Tekinthetjük-e a Poland nevű változót egyértelmű megfigyelésazonosítónak, ha a missingeket figyelmen kívül hagyjuk? Amennyiben igen, tekinthető-e ez elemzői szempontból egy használható azonosítónak?
5. Hány hiányzó megfigyelés van a német adatokban?
6. Adja meg a bolgár inflációk átlagát, szórását, varianciáját, legnagyobb és legkisebb értékét!
7. Hány különböző inflációs értéket tudunk azonosítani Csehországban a megfigyelt periódusban?
8. Hány évben volt a magyar infláció alacsonyabb, mint az EU-átlag? Mi volt a legnagyobb különbség?
9. Hány évben volt Lengyelországban az infláció 5%-nál magasabb?
10. Tekintsük azokat az éveket, ahol a bolgár infláció az EU-átlagnál magasabb volt! Mekkora volt ezekben az években a magyar infláció?
11. Tekintsük azokat az éveket, ahol a román infláció az EU-átlag háromszorosánál magasabb volt! Mi volt a legkisebb és a legnagyobb magyar inflációs szint ezekben az években?
12. Minden évben különböző volt az EU átlag? Ha nem, mely években volt ugyanaz?
13. Tanulmányozza inspect paranccsal a cseh inflációt!
14. Melyik változó szerint van rendezve az adatbázis?
15. Kérjen egy kereszttáblát az EU-átlagra és Magyarországra azon esetekben, amelyekben a román infláció 10%-nál kisebb!
16. Generáljunk egy above_mean nevű bináris változót, amely 1-es értéket vesz fel, ha adott évben a román infláció magasabb, mint az EU-s átlag háromszorosa, és 0-s értéket egyébként!
17. Jellemezze a magyar inflációt a leggyakrabban használatos statisztikai mutatókkal!
18. Van-e az adatbázisban olyan ország-év, amelynek inflációs szintje megegyezik a magyar inflációs szint 17 éves átlagával? Ha igen, nevezze meg azokat!
19. Hány évben volt Magyarországon alacsonyabb infláció, mint Romániában?
20. Melyik évben volt a legnagyobb a különbség a magyar és a román infláció között?
Hívja be a parancssorba beírt parancs segítségével a bevstata_gdppercap.xls fájl Stata_data1 nevű fülét! A következő feladatok mindegyike ezen állományra vonatkozik.
1. Adja meg az adatbázisban található szöveges (string) tartalmú változók nevét!
2. Melyik országban volt a legnagyobb az egy főre eső GDP 2000-ben? NB: a feladat megoldása során egy érdekes problémába fog ütközni. Hasznos gyakorlatként gondolkozzon a probléma forrásán és megoldásán, valamint vonjon le gyakorlati elemzés szempontjából releváns következtetéseket!
3. Mely években volt a magyar GDP/fő alacsonyabb az EU-átlagnál?
4. Mely országokban növekedett a GDP/fő 2003 és 2004 között?
5. Hány országban volt 1996-ban a GDP/fő nagyobb, mint 20 ezer?
6. Jellemezze a leggyakoribb helyzet-, szóródási és alakmutatókkal a 2008-as és 2009-es éveket!
Hívja be a parancssorba beírt parancs segítségével a bevstata_education.xls fájl Stata_data1 nevű munkalapját!
1. Adja meg az adatbázisban található szöveges (string) tartalmú változók nevét!
2. Mely éveket tartalmazza az adatbázis?
3. Hány országot tartalmaz az adatbázis?
4. Egyértelmű azonosítónak tekinthető-e a country_code vagy a year változó? És azok együttesen? A vizsgálat előtt távolítsa el missing értékeiket!
5. Mely változó tartalmazza a legkevesebb missing értéket (a country_name, country_code és year változókat leszámítva)?
Nyissa meg a Stata online adatbázisai közül a restaurant elnevezésűt!
1. Vizsgálja meg, hogy a kiválasztott (chosen=1) éttermek közül melyiket választják a 3 gyermekes családok közül a legtöbben?
2. Melyiket választják legtöbben a gyermektelen családok közül?
3. Melyik éttermet választja a legtöbb átlag feletti jövedelmű család?
4. Melyik éttermet választja a legtöbb átlag alatti jövedelmű család?
Nyissa meg a bevstata_fiktivproduct.xls fájl bevstata_fiktiv_price_shops_dup nevű munkalapját! Az alábbi feladatok elvégzése során, ahol szükséges, alkalmazza a preserve-restore parancskombinációt!
1. Valamely ismert parancs segítségével derítse fel, hogy az adatbázis tartalmaz-e duplikátumokat év és termék szerint!
2. Valamely ismert parancs segítségével távolítsa el a duplikátumokat!
3. Néha pontosabb módszerre van szükségünk a duplikátumok véletlenszerű eltávolításánál. Ez esetben térjen vissza az adatbázis eredetijéhez, és vizsgálja meg, nincs-e olyan hónap, amely minden év-termék kombinációra szerepel, és tartsa meg csak az ehhez a hónaphoz tartozó megfigyeléseket! Így az azonos időpontban rögzített árak válnak összehasonlíthatóvá.
4. Nem mindig szükségszerű a duplikátumok eltávolítása. Kezelésük egy másik lehetséges megoldása (amennyiben az adott szituációban ez értelmes), hogy megtartjuk őket, azonban súlyt rendelünk hozzájuk. Térjen vissza az eredeti adatbázishoz, és rendeljen súlyokat minden megfigyeléshez! Amelyik termék-év esetében nincs duplikátum, azok a megfigyelések 1-es súlyt kapjanak, a többi esetben pedig a súlyokat egyenlően ossza el úgy, hogy összegük egy termék-év kombináció esetében 1 legyen!