Hírek : Kapcsolat változók között |
Kapcsolat változók között
2005.05.11. 20:02
Kapcsolat változók között
Regresszió és korreláció
Kapcsolat változók között
Példa
Jegyezzük fel a tanfolyam hallgatói közül véletlenszerûen kiválasztott személyek néhány adatát. A nevük mellett példáúl testmagasságukat és testtömegüket. A kapott értékeket irjuk egy táblázatba. Személy neve Testmagasság Testtömeg
(cm) (kg)
Jozsef 177 69
Különbözik-e a fenti táblázat a két mintás t próba táblázatától?
Különbözi-e a fenti táblázat az egy mintás t próba táblázatától?
ezek az összetartozó számok egy-egy személy tulajdonságait irják le.
Kérdés, van-e összefüggés a testmagasság és a testtömeg között?
Ábrázoljuk az egy személyhez tartozó számpárokat mint egy pontot egy olyan derékszögü koordinátarendszerben, melynek tengelyeit a testmagasság és a testtömeg ábrázolására skálázzuk.. Egy személy adatait 1 olyan ponttal ábrázoljuk, amelynek koordinátái (x és y) a testmagasság és a testtömeg értékei.
Ábra
A kapott ponthalmaz nem teljesen véletlenszerüen oszlik meg de elrendezése jelentõs szóródást is mutat. A pontok helyzete valamilyen összefüggés létét sugallja.
Néhány további példa:
Adott rádioaktiv anyag esetén a radioaktiv bomlás és az idõ kapcsolata.
A várható élettartam és az életkor.
A gyógyszerek hatásának és a használt adag.
A testmozgás során a szivmûködés frekvenciája és a végzett munka
mennyiségének kapcsolata.
Két változó általánosabban tekintve:
A két számoszlop két változó, méghozzá két valószínûségi változó, melyek értékei a véletlentõl is függenek. A két változó nem független, mert minden érték pár úgy függ egymástól, hogy egy személyhez tartozó adatok.
Két változó lehet 1. Függvényszerü kapcsolatban, 2. Stochasztikus kapcsolatban, és 3. Lehet független egymástól.
- A függvényszerû kapcsolat esetében az egyik változó és a függvénykapcsolat egyértelmûen pontosan meghatározzák a második változó értékét.
- A stochasztikus kapcsolatban a kapcsolat nemirható le egy függvénnyel, mert az a függvényszerû kapcsolat mellett még a véletlentõl is függ. A stochasztikus kapcsolat lehet erõs, szoros, mégis stochasztikus jellegû. A fenti példa is stochasztikus jellegû kapcsolatban lévõ változókat mutat be.
- Az egymástól nem függõ (független) kapcsolatban lévõ változók esetére könnyû példákat találni, például a hallgatók nevének kezdõbetûje és testtömegük között nem valószínû a szoros kapcsolat.
Egy lináris függvénykapcsolat ábrája
2 független változó kapcsolatát bemutató ponthalmaz.
2 valószinûségi változó kapcsolatát bemutató ponthalmaz.
Diszkrét valószinûségi változók közötti kapcsolat vizsgálatára a Khi négyzet próba használható, a korreláció és a regresszió módszere erre nem alkalmasak.
Korreláció
A kapcsolat szorosságát, a függõség fokát mérnünk kell. Ennek mérésére a korrelációs együttható a szokásos mérõszám, amelynek sok szemléletes tulajdonsága hasonló a szórás tulajdonságaihoz. A korrelációs együttható egy statisztika, azaz egy minta korreláltsága leirására szolgál, miközben a populáció változói közötti kapcsolat erõsségét a korrelációs együttható mint paraméter határozza meg.
Az összetartozó értékpárok halmazának mindegyik tagját (a pontok x és y koordinátáit) külön-külön átlagolhatjuk és az egyes (x, vagy y) értékeknek a saját átlaguktól (x, y) való eltérését vizsgálhatjuk. Az x, vagy az y szórásának számitásakor ezeket a különbségek négyzeteit átlagoltuk (majd négyzetgyököt vontunk belõle), a korrelációs együttható számitásakor az összetartozó különbségeket összeszorozzuk és a szorzatok összegét (ezt másnéven kovarianciának is nevezik) elosztjuk a négyzetes különbségek összegével. (képlet) A két változó szerepe a korreláció vizsgálatában felcserélhetõ, nincs kitüntetett szerepe egyiknek sem.
A korrelációs együttható két fontos tulajdonsága, 1. Független változók esetében a korrelációs együttható értéke 0, 2. Lineáris függvénykapcsolatban lévõ (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1.
Minél szorosabb (lineáris) összefüggés van két, véletlentõl is függõ változó között, annál közelebb áll a korrelációs együttható értéke az 1-hez. Forditva, minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz.
Fontos, hogy a korrelációs együttható az egyszerû, közel lineáris stochasztikus kapcsolat esetében használható statisztika, egy bonyolultabb függvénygörbe mentén elhelyezkedõ értékek kapcsolatának leirására a korrelációs együttható nem alkalmas.
Grafikus példák: 1. Valamilyen függvénykapcsolatban lévõ, például egy parabola mentén elhelyezkedõ pontok esete. A két csoportban mért, külön-külön 0 koorrelációjú változók esete, pl. egészséges kontrollok és betegek valamely csoportja, melyekben mind a két változó különbözik, miközben az adott csoporton belül nem korrelálnak egymással a változók.
Ha két változó korrelációjának vizsgálata során az együttható értéke 0, akkor még nem biztos, hogy ezek függetlenek is! Ezért ilyenkor csak annyit mondhatunk: a két változó korrelálatlan.
A két valószinûségi változó korrelációját egy elméleti (rho-val jelölt) korrelációs együttható irja le. Ennek értékét a gyakorlatban becsléssel közelitjük meg. A becsléshez a szokásos módszer szerint a populációból mintát veszünk, majd a minta korrelációs együtthatóját kiszámoljuk, és meghatározzuk a becslés hibáját. A becslés hibájának ismeretében megmondhatjuk, hogy mekkora annak a valószinûsége, hogy a mintából számolt korrelációs együttható nem =0
A korrelációs együttható elõjele jelzi, hogy az összefüggést jellemzõ egyenes emelkedõ, vagy sülyedõ jellegü-e.
Kiinduló feltételezések
Mind a két változó folytonos
Hipotézis vizsgálat
A korreláció szignifikanciája: Mennyire bizhatunk egy mintából számolt korrelációs együtthatóban? Ez két dologtól függ. -egyrészt függ a korrelációs együttható számértékétõl. Minél nagyobb ez a szám, azaz minél közelebb esek 1 hez, annál valószinûbb, hogy különbözik a 0-tól! Másrészt bizalmunk attól is függ, mekkora elemszámú a minta, amibõl a korrelációs együttható értékét kiszámoltuk. Ez a két tényezõ szerepel a korrelációs együttható szórásának a képletében is, ahol a r-nek a SE egyenlõ (1-r)exp2/sqrt(n). Ez a mennyiség arra enged következtetni, hogy ismételt mintavétel esetében milyen határok közé milyen valószinûséggel esik az új mintából számolt r értéke. Az r és annak a SE-je határozza meg, hogy milyen az r szignifikanciája. Ey azt mondja meg, hogy mekkora annak a valószinûsége, hogy az r olyan populációból származó mintából számoltuk ki, amelyben az r=0. és csak a véletlenkövetkeztében volt a mintában értéke r.
Az r SE-jének ismeretében lehet az r számára konfidencia intervallumot késziteni, és annak segitségével lehet két korrelációs koefficiens azonosságára, vagy különbözõségére következtetni.
Gyakori hibák
Görbe vonal mentén elhelyezkedõ pontok, görbére illeszkedõ pontok esetében a korreláció nem alkalmas az összefüggés jellemzésére.
Nem használható, ha az egyik változót a kutató határozza meg, például gyógyszerek dózis-hatás görbéje esetében, amikor a gyógyszert néhány rögzitett, és nem a véletlentõl függõ adagban adják.
Gondolnunk kell arra is, hogy ha a korreláció koefficiense (r) szignifikáns, az még nem jelenti azt, hogy a változók között kapcsolat erõs, vagy azt, hogy a kapcsolat jelentõs, fontos lenne. A korreláció, és annak a valószinüsége tény, a többi a szakmai értékeléstõl, érveléstõl függ.
Néhány kiugró érték erõsen torzithatja a korrelációs együtthatót. A szóródási ábrán feltûnõ, kiugró érték(ek) esetén gondos vizsgálatra, szakértõ segitségére van szükség. Esetleg a nem-paraméteres módszer, a Spearman féle rang-korreláció használata tanácsolható.
Gyakori és súlyos hiba, hogy a két változó közötti korrelációból ok-okozeti összefüggésre következtetnek. A korreláció mögött lehet ok-okozati viszony, de az is lehet, hogy a két korrelált változó nincs egymással ok-okozati kapcsolatban, hanem mind a kettõ egy harmadik, közös októl függ. A korreláció magyarázata lehet a véletlen is, például, mind a két változó az idõvel korrelált, és a közös tényetõvel korrelált változók között gyakran van korreláció is. A tanulság, hogy az ok-okozati összefüggést logikai, vagy kisérleti úton kell bizonyitani.
Regresszió
Ha két (vagy több) tulajdonság (változó) között van kapcsolat, akkor gyakran szeretnénk az egyik értékébõl megjósolni, vagy kiszámitani a másik értékét. Ezt lehetõleg nem csak általában szeretnénk megtenni, hanem az egyes adatok esetében is szeretnénk tudni, hogy ha az egyik változó értéke adott, akkor mit várhatunk a másik váltzó értékére. Tudjuk, hogy biztos ereményt csak függvény kapcsolat esetén kaphatunk, és ha a változónk a véletlentõl is függ, akkor a megjósolt érték nem lesz teljesen pontos.
Keressük a kapcsolatban foglalt törvényszerüséget. Ehhez a két változó között meglévõ kapcsolatot függvényként szeretnénk kifejezni. A stochasztikus változók kapcsolata esetében a két változó kapcsolatát leiró függvény mellett a képletben megjelenik a véletlen hatását leiró valószinüségi változó is. A függvény azt fogja kifejezni, hogy az egyik változó (x) adott értékéhez átlagosan a a másik változó milyen értéke tartozik.
Lineáris regresszió
A legegyszerübb regressziós kapcsolat két változó között a grafikusan egy egyenes vonallal jellemezhetõ lineáris függvénykapcsolat. Esõ kérdésünk lehet: a két változó között van-e egy egyenessel leirható összefüggés? Ha igen, akkor megkeressük a legjobb egyenest.
Az ennél bonyolultabb, nem-lineáris függvénykapcsolatok, vagy a kettõnél több változó függvénykapcsolatának vizsgálata a statisztika haladó témái közé tartoznak.
A regressziós kapcsolatban mind a két változó függhet a véletlentõl, de az is lehet, hogy csak az egyik esetében fontos a véletlentõl függõ komponens. A továbbiakban mi a két esetet nem különböztetjük meg.
A regresszióban a két változónak szerepe nem felcserélhetõ. A lineáris regresszó képletében y=ax+b képletben az egyik változó az x, a másik az y helyére kerül, és az x változó segitségével fogjuk az y értékét megjósolni. Itt elsõsorban logikailag fontos hogy a két változó szerepe nem felcserélhetõ. Emlékezzünk arra, hogy a korreláció esetében a két változó közül egyik sem volt kitüntetett, azaz felcserélhetõk voltak.
Gyakran az x változó esetében nem tételezzük fel, hogy a véletlen változás az x-et is érinti, hanem az x-t általunk választható rögzitett és ismert értékként kezeljük, és a véletlentõl való függés az y értékében jelenik meg. Az y tehát függ az x-tõl is, de ezenkivül a véletlen okozta ingadozástól is.
Hogyan határozzuk meg, hogy a pontok közé húzható rengeteg egyenes közül melyik az amelyik az adatok összefüggését legjobban jellemzi? A grafikus ábrázolás pontdiagramja sejteti a lineáris összefüggést. Vonalzóval, "szemre" azonban nehéz megtalálni az egyenes és a pontok legjobb illeszkedését.
Ábra 1 ponthalmaz, 3 egyenes, melyik illeszkedik legjobban?
A legkisebb négyzetek módszere
A legjobb illeszkedést a legkisebb négyzetek módszerével számoljuk ki. Nem hibázunk jelentõsen, ha azt mondjuk, hogy a pontok és az egyenes távolságát minimalizálja a legkisebb négyzetek módszere. A valóságban a legkisebb négyzetek módszere azt az egyenest keresi meg, amelyre igaz az, hogy ha a pontoknak az egyenestõl mért távolságait négyzetre emeljük, majd a kapott számokat összegezzük, akkor ez az összeg a minimális lesz (nincs olyan másik egyenes, ami esetében kisebb ilyen összeget kapnánk). Ez legtöbbször nem azonos a távolságok összegével, sem annak négyzetével (mert általában nem mindegy, hogy elõbb emelünk-e négyzetre és utána összegzünk, vagy pedig forditva, elõbb összegzünk és utána emelünk négyzetre), de igen hasonló tulajdonságú statisztika.
Az illesztés és a becslés jósága
Az angolszász szakirodalom a regresszió esetében használja még a determinációs koefficiens fogalmát is, amely az y értékek esetében a lineáris függvénynek tulajdonitható változásokat (szóródást) viszonyitja az összes szóródáshoz. Ha minden szóródást a lináris komponens magyaráz, és nincs véletlennek tulajdonitható komponens, akkor ez a hányados azonos 1-el. Ez a koefficiens könnyen bizonyithatóan azonos a korrelációs együttható négyzetével. A pontok szóródásának minél nagyobb részét tudjuk megmagyarázni a lináris regresszióval, annál nagyobb ez az érték, annál közelebb áll egyhez ez a hányados, és akkor annál nagyobb a korrelációs együttható is. A regressziónak ez a tulajdonsága jól mutatja a korreláció és a lineáris regresszió fogalmainak rokonságát.
A korrelációhoz hasonlóan a két változó kapcsolata a regresszió esetében is többféle lehet. Ha a két változó között nincs kapcsolat, akkor a regressziós együttható értéke 0. Ha van kapcsolat, akkor a regresssziós együttható értéke eltér a 0-tól.
A regressziós egyenes képletében mind a konstans tag, mind pedig az x együtthatója a véletlentõl is függõ mennyiség. Ismételt mintavétel esetében (a kisérlet ismétlésekor) várható hogy egyik érték sem lesz pontosan ugyanaz, mint korábban volt, hanem szóródást fognak mutatni.
Fontos kérdés, hogy a regressziós együttható értéke eltér-e a 0-tól, másképen fogalmazva van-e statisztikai értelemben vett összefüggés a két változó között, és milyen valószinüséggel helyes errõl a kérdésrõl hozott döntésünk.
Ha a regresszós egyenest az egyik változó értékének ismeretében a másik becslésére kivánjuk használni, akkor tudnunk kell, hogy a becslés jósága függ a változók kapcsolatának erõsségétõl, azaz a korreláció szorosságától. Minél szorosabb a kapcsolat a két változó között, annál jobb az x alapján az y értékének a becslése.
Kiinduló feltételezések
A minta független elemekbõl áll, véletlenszerü mintavétellel vett.
Folytonos változók kapcsolata
Minden x értékre az y érték normális eloszlású valószinûségi változó
Hipotézis vizsgálat.
Mind a konstans tag, mind pedig a meredekség esetében a standard hibával képzett hányadosa a t eloszlást követi, n-2 szabadságfokkal. Ennek alapján lehet véleményt kialakitani arról, hogy a számitott értékeknek a nullától való eltérését vajon a véletlen okozta-e? A szignifikáns (0-tól eltérõ) regressziós együttható (meredekség) azt jelzi, hogy a két változó kapcsolatát az adott valószinüség mellett nem a véletlen hozta létre.
Reziduálisok vizsgálata
Az egyes pontok és a regressziós egyenes közötti függõleges távolságokat reziduálisoknak is nevezik, és ezek képviselik az eljárásban elkülönitett véletlentõl függõ komponenst. Ezek részletes vizsgálata fontos kiegészitése a változók kapcsolatának regresszióval történõ vizsgálatának. A statisztikai programcsomagok rendszerin tartalmaznak eljárásokat a regresszió kiszámitása után a rezidális értékek táblázatokba foglalására, azok grafikus vizsgálatára. A reziduálisok ábrázolás jól mutathatja, ha a szóródás függ a független változó értékétõl, ha az összefüggés eltér a lineáristól, ha az x tengely mentén egymás mellett lévõ adatok nem függetlenek egymástól.
Minél kisebb az ábrán a vertikális szóródás , annál szorosabb a korreláció, és annál jobb az y érték becslése. Ezt illusztrálja az ábra. A becslés korlátai is jól látszanak az ábrán.
A regressziós együttható, és a tengelymetszet értékének a hibája. A görbe körüli szóródás adataiból a statisztikai programcsomagok segitségével meghatározhatjuk a regressziós egyenes együtthatóinak standard hibáját. A standard hiba segitségével konfidencia intervallumok képezhetõk, és az is vizsgálható, hogy független mintákból számított két regressziós egyenes paraméterei között van-e különbség?
Gyakori hibák
A lineáris regresszió számitása során a korreláció esetén emlitett majdnem minden hiba elkövethetõ. Kivétel, hogy a regresszió esetében a "független" változó (x) esetében megengedhetõ, hogy az ne legyen valószinüségi változó, értékét a vizsgáló határozza meg.
|