..::BMF Levelezős Hallgatóinak Oldala::..
Keress a Google-n!
Google
 
Menü
 
Google
 
UNITELSHOP

Unitel City Distribution Partner

 
Magyarorszag.hu
 
Keress pénzt!

 
Lehet itt is postafiókod!!
Felhasználónév:
Jelszó:
  SúgóSúgó

Új postafiók regisztrációja
 
Bejelentkezés
Felhasználónév:

Jelszó:
SúgóSúgó
Regisztráció
Elfelejtettem a jelszót
 
 
freeaudit.hu freeaudit.hu
 
Hírek
Hírek : Az exploratív adatanalízis módszerei

Az exploratív adatanalízis módszerei

  2005.05.11. 19:59

Az exploratív adatanalízis módszerei Stem-and-leaf ábrázolás Box and whiskers plot Háromdimenziós scattergram Alcsoportok különböző jelekkel/színekkel való megjelenítése Színskálák használata Többablakos dinamikus vizsgálatok: sweeping

Az exploratív adatanalízis módszerei

  • Stem-and-leaf ábrázolás
  • Box and whiskers plot
  • Háromdimenziós scattergram
  • Alcsoportok különböző jelekkel/színekkel való megjelenítése
  • Színskálák használata
  • Többablakos dinamikus vizsgálatok: sweeping

Stem-and-leaf ábrázolás

Az adatoknak ez az ábrázolási módja igen hasonló a hisztogramhoz. A stem-and-leaf ábrázolás előnye, hogy az ábrázolt adatok számértéke könnyen leolvasható, és igen egyszerűen, gyorsan akár kézzel is elkészíthető. Hátránya a ->>hisztogrammal szemben, hogy kevésbé közismert ábrázolási módszer, és talán kevésbé esztétikus. Emiatt publikációs, demonstrációs célokra nem szokás alkalmazni.

A módszert legkönnyebben egy példán keresztül érthetjük meg. Tegyük fel, hogy a következő adatok eloszlását szeretnénk ábrázolni:
85,90,104,108,110, 123, 123, 126, 128, 132, 136, 139, 145, 149, 165, 190, 240
Vágjuk le minden adat utolsó számjegyét. A levágott számokat nevezzük leveleknek, a maradék számok pedig a kocsányok. A legkisebb kocsánytól a legnagyobbig egyesével írjuk egymás alá a számokat. A leveleket pedig írjuk egymás mellé, abba a sorba ahol a neki megfelelő kocsány van. A kocsányok és a levelek közé egy | elválasztójelet téve a következőt kapjuk:

 8|5
 9|0
10|48
11|0
12|3368
13|269
14|59
16|5
17|
18|
19|0

Látható, hogy a kapott ábra egy (az óramutató járása irányában 90 fokkal elforgatott) hisztogramra emlékeztet azzal a különbséggel, hogy itt az egyes adatokhoz tartozó számértékek pontosan leolvashatók.

Itt is igen fontos, hogy megfelelő számú kocsány legyen, ha túl sok vagy túl kevés van, ugyanazok a problémák jelentkeznek, mint a hisztogram készítéskor. A következőképpen lehet csökkenteni a kocsányok számát: ha az adatok pl. négy vagy több jegy pontosságra vannak megadva, akkor célszerű 3 jegy pontosságra kerekíteni. a kocsányok és levelek elválasztásakor 2 számjegyet is levághatunk. Így pl. az előző adatsor a következőképpen néz ki:

0**|8590
1**|0408102323262832363945496590

(A kocsányban levő két ** azt jelzi, hogy a levelek két jegyből állnak.) Ez az ábrázolás persze túl kevés kocsány ad. A kocsányok számát növelni is lehet, pl:

0**|
0**|
0**|
0**|
0**|8590
1**|040810
1**|23232628323639
1**|4549
1**|65
1**|90

Itt minden kocsányt 5 részre osztottunk, ahol az elsőhöz a 0-1- gyel kezdődő leveleket, a másodikhoz a 2-3-mal kezdődő, a harmadikhoz a 4-5-tel kezdődő, a negyedikhez a 6-7-tel kezdődő, az ötödikhez pedig a 8-9-cel kezdődő leveleket írtuk.

Box-and-whiskers plot

Ez az ábrázolás hasonló, mint az igen széles körben használt átlag +/- szórás, de annál sokkal informatívabb. Előnye, hogy látható rajta a minta terjedelme, a kilógó (->>outlier) értékek, a ->>medián és a ->>kvartilisek. Ezáltal a ->>{tapasztalati eloszlás} minden fontosabb paramétere megítélhető (elhelyezkedés, szóródás, ferdeség). Kiegészíthető az ábrázolázolás úgy, hogy a megszokott átlagot és szórást is lássuk. Hátránya csupán az, hogy nem ismert olyan széles körben, mint a klasszikus átlag +/- szórás, és emiatt sokan idegenkednek tőle, pedig demonstrációs célokra is kiválóan alkalmas. Feltétlenül érdemes megismerkednünk ezzel a módszerrel, és ezt célszerű alkalmaznunk mind az adatokkal való ismerkedés fázisában, mind pedig akkor, amikor másnak demonstráljuk adatainkat. Ilyenkor azonban feltétlenül ismertessük röviden az ábrázolási módszert, ha nem vagyunk biztosak abban, hogy ezzel tisztában vannak hallgatóink.

Az ábrázolás lényege, a mediántól felfelé és lefelé egy-egy széles téglalapot (box) rajzolunk a felső és alsó kvartilisig. A felső kvartilistől felfelé az alsótól lefelé pedig egy-egy vékony téglalapot (whiskers) rajzolunk a legnagyobb illetve a legkisebb adatig. Ha ezek messzebb vannak, mint az ->>{interkvartilis terjedelem} 1.5-szerese, akkor csak idáig húzzuk a vékony téglalapot, és az ezen kívül eső értékeket egy- egy ponttal jelöljük, ezeket outlier értékeknek tekintve.

Háromdimenziós scattergram

A modern statisztikai programok közül sok képes arra, hogy adataink térbeli elhelyezkedését is megmutassa, egy szokásos, három egymásra merőleges tengelyt tartalmazó koordinátarendszerben. Ilyenkor az ábrázolt adatokat természetesen perspektivikusan látjuk a számítógép kétdimenziós képernyőjén. Rendszerint lehetőségünk van az ábrázolt koordinátarendszer forgatására, így tetszőleges szögből szemrevehetjük adatainkat. A módszer hasznos lehet sokváltozós adatok vizsgálatakor.

Alcsoportok különböző jelekkel/színekkel való megjelenítése

Az adatok ábrázolásakor sokszor felmerül a kérdés, hogy vajon a vizsgált minta alcsoportjai egyformán viselkednek-e vagy sem (pl. a vizsgált egyedek neme befolyásolja-e a mért értékeket). Az ilyen jellegű kérdések esetén természetesen a megfelelő statisztikai hipotézisvizsgálat segíthet a döntésben. Mielőtt azonban ezt elvégeznénk, célszerű az alcsoportok adatait úgy ábrázolni, hogy jól láthatóan elkülönüljenek az egyes alcsoportok. Ez különösen fontos az adatok megismerése (exploratív adatanalízis) időszakában. Az alcsoportok elkülönítésére használhatunk különböző jeleket, vagy színeket.

Színskálák használata

Az előző problémához hasonló, amikor azt szeretnénk látni, hogy egy folytonos változó (pl. a testsúly) hatással van-e a mért értékeinkre. Vannak statisztikai programok, amikkel lehetséges az adatpontokat úgy színezni, hogy pl. a legkisebb testsúlyhoz tartozó adat kék legyen a legnagyobbhoz tartozó piros, és a kettő között folyamatos legyen a színátmenet. Ezzel a módszerrel könnyen felfedezhető, ha az említett példában a testsúly összefüggésben van az ábrázolt változóval.

Többablakos dinamikus vizsgálatok: sweeping

Azok a statisztikai programok, amelyek ablakos környezetben futnak (Windows, OS/2 PM, UNIX X-Windows stb.) képesek lehetnek arra, hogy az egyik ablakban megjelölt adatok egy másik ablakban is automatikusan, szimultán kijelölődjenek. Így lehetőség nyílik arra, hogy az adatainkat egyszerre több ablakban, többféle módon ábrázoljuk, és az egyikben folyamatosan változtatva az adatok kijelölését megfigyeljük, hogyan jelölődnek ki a többi ablak adatai. Így a több változós adatok közötti összefüggések jól vizsgálhatók.


Jump to: hisztogram outlier medián kvartilisek tapasztalati eloszlás interkvartilis terjedelem

 
Kedvenc oldalak
 
Google
 
OnlineRádió

Online rádióhallgatás:

 
Valami kellene, de nem kapod meg sehol sem? Nézd meg itt!
Válogass termékeink közül - licitálj - vagy add el amire már nincs szükséged! Kattints ide!
 
Keress! Licitálj! Vedd meg! Add el! :-))
Csak különleges ajánlatok!

Csak különleges ajánlatok!



 
Chat -- Online
Név:

Üzenet:
:)) :) :@ :? :(( :o :D ;) 8o 8p 8) 8| :( :'( ;D :$
 
Látogatottság!
Indulás: 2004-11-23
 

Dryvit, hõszigetelés! Vállaljuk családi házak, nyaralók és egyéb épületek homlokzati szigetelését! 0630/583-3168 Hívjon!    *****    Könyves oldal - Ágica Könyvtára - ahol megnézheted milyen könyveim vannak, miket olvasok, mik a terveim...    *****    Megtörtént Bûnügyekkel foglalkozó oldal - magyar és külföldi esetek.    *****    Why do all the monsters come out at night? - Rose Harbor, a város, ahol nem a természetfeletti a legfõbb titok - FRPG    *****    A boroszkányok gyorsan megtanulják... Minden mágia megköveteli a maga árát. De vajon mekkora lehet ez az ár? - FRPG    *****    Alkosd meg a saját karaktered, és irányítsd a sorsát! Vajon képes lenne túlélni egy ilyen titkokkal teli helyen? - FRPG    *****    Mindig tudnod kell, melyik kikötõ felé tartasz. - ROSE HARBOR, a mi városunk - FRPG    *****    Akad mindannyijukban valami közös, valami ide vezette õket, a delaware-i aprócska kikötõvárosba... - FRPG    *****    boroszkány, vérfarkas, alakváltó, démon és angyal... szavak, amik mind jelentenek valamit - csatlakozz közénk - FRPG    *****    Why do all the monsters come out at night? - Rose Harbor, a város, ahol nem a természetfeletti a legfõbb titok - FRPG    *****    why do all monsters come out at night - FRPG - Csatlakozz közénk! - Írj, és éld át a kalandokat!    *****    CRIMECASESNIGHT - Igazi Bûntényekkel foglalkozó oldal    *****    Figyelem, figyelem! A második vágányra karácsonyi mese érkezett! Mesés karácsonyt kíván mindenkinek: a Mesetáros    *****    10 éves a Haikyuu!! Ennek alkalmából részletes elemzést olvashatsz az anime elsõ évadáról az Anime Odyssey blogban!    *****    Ismerd meg az F-Zero sorozatot, a Nintendo legdinamikusabb versenyjáték-szériáját! Folyamatosan bõvülõ tartalom.    *****    Advent a Mesetárban! Téli és karácsonyi mesék és színezõk várnak! Nézzetek be hozzánk!    *****    Nagyon pontos és részletes születési horoszkóp, valamint 3 év ajándék elõrejelzés, diplomás asztrológustól. Kattints!!!!    *****    A horoszkóp a lélek tükre,egyszer mindenkinek érdemes belenézni.Keress meg és én segítek értelmezni a csillagok állását!    *****    HAMAROSAN ÚJRA ITT A KARÁCSONY! HA SZERETNÉL KARÁCSONYI HANGULATBA KEVEREDNI, AKKOR KATT IDE: KARACSONY.GPORTAL.HU    *****    Nyakunkon a Karácsony, ajándékozz születési horoszkópot barátaidnak, ismerõseidnek.Nagyon szép ajándék! Várlak, kattints