Hírek : Az exploratív adatanalízis módszerei |
Az exploratív adatanalízis módszerei
2005.05.11. 19:59
Az exploratív adatanalízis módszerei
Stem-and-leaf ábrázolás
Box and whiskers plot
Háromdimenziós scattergram
Alcsoportok különböző jelekkel/színekkel való megjelenítése
Színskálák használata
Többablakos dinamikus vizsgálatok: sweeping
Az exploratív adatanalízis módszerei
- Stem-and-leaf ábrázolás
- Box and whiskers plot
- Háromdimenziós scattergram
- Alcsoportok különböző jelekkel/színekkel való megjelenítése
- Színskálák használata
- Többablakos dinamikus vizsgálatok: sweeping
Az adatoknak ez az ábrázolási módja igen hasonló a hisztogramhoz. A stem-and-leaf ábrázolás előnye, hogy az ábrázolt adatok számértéke könnyen leolvasható, és igen egyszerűen, gyorsan akár kézzel is elkészíthető. Hátránya a ->>hisztogrammal szemben, hogy kevésbé közismert ábrázolási módszer, és talán kevésbé esztétikus. Emiatt publikációs, demonstrációs célokra nem szokás alkalmazni.
A módszert legkönnyebben egy példán keresztül érthetjük meg. Tegyük fel, hogy a következő adatok eloszlását szeretnénk ábrázolni: 85,90,104,108,110, 123, 123, 126, 128, 132, 136, 139, 145, 149, 165, 190, 240 Vágjuk le minden adat utolsó számjegyét. A levágott számokat nevezzük leveleknek, a maradék számok pedig a kocsányok. A legkisebb kocsánytól a legnagyobbig egyesével írjuk egymás alá a számokat. A leveleket pedig írjuk egymás mellé, abba a sorba ahol a neki megfelelő kocsány van. A kocsányok és a levelek közé egy | elválasztójelet téve a következőt kapjuk: 8|5
9|0
10|48
11|0
12|3368
13|269
14|59
16|5
17|
18|
19|0
Látható, hogy a kapott ábra egy (az óramutató járása irányában 90 fokkal elforgatott) hisztogramra emlékeztet azzal a különbséggel, hogy itt az egyes adatokhoz tartozó számértékek pontosan leolvashatók.
Itt is igen fontos, hogy megfelelő számú kocsány legyen, ha túl sok vagy túl kevés van, ugyanazok a problémák jelentkeznek, mint a hisztogram készítéskor. A következőképpen lehet csökkenteni a kocsányok számát: ha az adatok pl. négy vagy több jegy pontosságra vannak megadva, akkor célszerű 3 jegy pontosságra kerekíteni. a kocsányok és levelek elválasztásakor 2 számjegyet is levághatunk. Így pl. az előző adatsor a következőképpen néz ki: 0**|8590
1**|0408102323262832363945496590
(A kocsányban levő két ** azt jelzi, hogy a levelek két jegyből állnak.) Ez az ábrázolás persze túl kevés kocsány ad. A kocsányok számát növelni is lehet, pl: 0**|
0**|
0**|
0**|
0**|8590
1**|040810
1**|23232628323639
1**|4549
1**|65
1**|90
Itt minden kocsányt 5 részre osztottunk, ahol az elsőhöz a 0-1- gyel kezdődő leveleket, a másodikhoz a 2-3-mal kezdődő, a harmadikhoz a 4-5-tel kezdődő, a negyedikhez a 6-7-tel kezdődő, az ötödikhez pedig a 8-9-cel kezdődő leveleket írtuk.
Ez az ábrázolás hasonló, mint az igen széles körben használt átlag +/- szórás, de annál sokkal informatívabb. Előnye, hogy látható rajta a minta terjedelme, a kilógó (->>outlier) értékek, a ->>medián és a ->>kvartilisek. Ezáltal a ->>{tapasztalati eloszlás} minden fontosabb paramétere megítélhető (elhelyezkedés, szóródás, ferdeség). Kiegészíthető az ábrázolázolás úgy, hogy a megszokott átlagot és szórást is lássuk. Hátránya csupán az, hogy nem ismert olyan széles körben, mint a klasszikus átlag +/- szórás, és emiatt sokan idegenkednek tőle, pedig demonstrációs célokra is kiválóan alkalmas. Feltétlenül érdemes megismerkednünk ezzel a módszerrel, és ezt célszerű alkalmaznunk mind az adatokkal való ismerkedés fázisában, mind pedig akkor, amikor másnak demonstráljuk adatainkat. Ilyenkor azonban feltétlenül ismertessük röviden az ábrázolási módszert, ha nem vagyunk biztosak abban, hogy ezzel tisztában vannak hallgatóink.
Az ábrázolás lényege, a mediántól felfelé és lefelé egy-egy széles téglalapot (box) rajzolunk a felső és alsó kvartilisig. A felső kvartilistől felfelé az alsótól lefelé pedig egy-egy vékony téglalapot (whiskers) rajzolunk a legnagyobb illetve a legkisebb adatig. Ha ezek messzebb vannak, mint az ->>{interkvartilis terjedelem} 1.5-szerese, akkor csak idáig húzzuk a vékony téglalapot, és az ezen kívül eső értékeket egy- egy ponttal jelöljük, ezeket outlier értékeknek tekintve.
Háromdimenziós scattergram
A modern statisztikai programok közül sok képes arra, hogy adataink térbeli elhelyezkedését is megmutassa, egy szokásos, három egymásra merőleges tengelyt tartalmazó koordinátarendszerben. Ilyenkor az ábrázolt adatokat természetesen perspektivikusan látjuk a számítógép kétdimenziós képernyőjén. Rendszerint lehetőségünk van az ábrázolt koordinátarendszer forgatására, így tetszőleges szögből szemrevehetjük adatainkat. A módszer hasznos lehet sokváltozós adatok vizsgálatakor.
Alcsoportok különböző jelekkel/színekkel való megjelenítése
Az adatok ábrázolásakor sokszor felmerül a kérdés, hogy vajon a vizsgált minta alcsoportjai egyformán viselkednek-e vagy sem (pl. a vizsgált egyedek neme befolyásolja-e a mért értékeket). Az ilyen jellegű kérdések esetén természetesen a megfelelő statisztikai hipotézisvizsgálat segíthet a döntésben. Mielőtt azonban ezt elvégeznénk, célszerű az alcsoportok adatait úgy ábrázolni, hogy jól láthatóan elkülönüljenek az egyes alcsoportok. Ez különösen fontos az adatok megismerése (exploratív adatanalízis) időszakában. Az alcsoportok elkülönítésére használhatunk különböző jeleket, vagy színeket.
Színskálák használata
Az előző problémához hasonló, amikor azt szeretnénk látni, hogy egy folytonos változó (pl. a testsúly) hatással van-e a mért értékeinkre. Vannak statisztikai programok, amikkel lehetséges az adatpontokat úgy színezni, hogy pl. a legkisebb testsúlyhoz tartozó adat kék legyen a legnagyobbhoz tartozó piros, és a kettő között folyamatos legyen a színátmenet. Ezzel a módszerrel könnyen felfedezhető, ha az említett példában a testsúly összefüggésben van az ábrázolt változóval.
Többablakos dinamikus vizsgálatok: sweeping
Azok a statisztikai programok, amelyek ablakos környezetben futnak (Windows, OS/2 PM, UNIX X-Windows stb.) képesek lehetnek arra, hogy az egyik ablakban megjelölt adatok egy másik ablakban is automatikusan, szimultán kijelölődjenek. Így lehetőség nyílik arra, hogy az adatainkat egyszerre több ablakban, többféle módon ábrázoljuk, és az egyikben folyamatosan változtatva az adatok kijelölését megfigyeljük, hogyan jelölődnek ki a többi ablak adatai. Így a több változós adatok közötti összefüggések jól vizsgálhatók.
Jump to: hisztogram outlier medián kvartilisek tapasztalati eloszlás interkvartilis terjedelem
|