Többszörös lineáris regresszió murder 1 PDF

Title Többszörös lineáris regresszió murder 1
Author bogi14 Acs
Course Statisztika II.
Institution Debreceni Egyetem
Pages 6
File Size 469.4 KB
File Type PDF
Total Downloads 411
Total Views 728

Summary

Többszörös lineáris regresszióA példa megoldása érdekében először „Korrelációanalízis”-t kell készíteni.  Bemeneti tartomány az összes adat.  Oszlopos elrendezés van.  Ha a fejlécet is kijelöltük, akkor a jelölő négyzetet töltsük ki.  Kimeneti tartomány bármilyen üres cella lehet. Én egy új munk...


Description

Többszörös lineáris regresszió A példa megoldása érdekében először „Korrelációanalízis”-t kell készíteni.  Bemeneti tartomány az összes adat.  Oszlopos elrendezés van.  Ha a fejlécet is kijelöltük, akkor a jelölő négyzetet töltsük ki.  Kimeneti tartomány bármilyen üres cella lehet. Én egy új munkafüzetbe helyeztem el a kapott táblázatot (1. ábra).

1. ábra: A korrelációanalízissel kapott eredmény táblázatos formában Forrás: Saját számítás Ahogy az 1. ábrán is jól látható, egy korrelációs mátrixot kaptunk eredményként. A mátrix sorai és oszlopai megegyeznek egymással (Gyilkosság, Népesség, Analfabéták, Jövedelem, Fagyos_napok). Az „R korrelációs” mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és az első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatót tartalmazza. A mátrix többi eleme a tényezőváltozók egymás közötti korrelációját méri. Az átlóban „1” értékek szerepelnek (fődiagonálisban), mivel ugyanazon két változó között szoros kapcsolat lesz. A táblázatban a korábban megtanult korrelációs együttható értékei szerepelnek, így a kapott eredményeket ez alapján kell lejellemezni. Például: népesség és a gyilkosság között pozitív irányú gyenge kapcsolat van, mivel az r értékünk 0,34. Azaz a népesség növekedésével gyengén nő a gyilkosságok száma is. Ezen mátrix értékeiből lehet megtudni, hogy hol van korrelációs összefüggés. Itt lehet meghatározni, hogy a multikollinearitás veszélye hol van. A korrelációs mátrix inverze alapján határozhatjuk meg a parciális korrelációs együtthatót. A parciális korrelációs együttható az Y és az X változók kapcsolatának szorosságát mérik (miközben a többi magyarázó változó hatását mindkét változóból kiszűrjük).

1

Mátrix invertálása: csak a magyarázó változókkal kell számolni (Népesség, Analfabéták, Jövedelem, Fagyos_napok). Ahhoz, hogy az invertálást meg tudjuk csinálni ki kell egészíteni az előző táblázatot. Az adott oszlopban szereplő, átló alatti értéket fel kell másolni az átló felé így, hogy az adatokat 90 fokban elforgatjuk.

2. ábra: A korrelációanalízissel kapott táblázat kiegészítése Forrás: Saját számítás Az oszlopok átmásolását követően kerülhet sor egy üres táblázat elkészítésre, ahol már csak a magyarázó változók lesznek. Népesség Analfabéták Jövedelem

Fagyos napok

Népesség Analfabéták Jövedelem Fagyos napok Kijelöljük a belső üres táblázatot (4x4), majd F2-vel belemegyünk az első cellába, ahova az INVERZ.MÁTRIX függvényt fogjuk alkalmazni. =inverz.mátrix(tömb1) Tömb1 helyére az előbb kiegészített mátrix adatait kell kijelölni. Ezt követően egyszerre nyomjuk le ezt a hármas billentyűkombinációt: SHIFT

CTR

ENTER

Kapott eredmény tábla: Nepesseg Analfabetak Jovedelem Fagyos_napok Nepesseg 1,245282 0,081881 -0,34734478 0,547241104 Analfabetak 0,081881 2,1658483 0,62618078 1,340838627 Jovedelem -0,3473448 0,6261808 1,34582173 0,000853381 Fagyos_napok 0,5472411 1,3408386 0,00085338 2,082546821

2

Az átlóban szereplő értékeket kell megnézni (VIF érték): 1: multikollinearitás hiánya 1-nél kisebb nem lehet. 2-nél magasabb már gyanús. A multikollinearitás elméleti hátteréről, illetve a lehetséges jelentéséről az előadáson hangzott anyagokat kérjük felhasználni. Az előadás anyagát kiegészítve a gyakorlati példa megoldása érdekében jelezni szeretném, hogy a teljes multikolliearitás esetén a lineáris függőségben lévő változók egyikét el kell hagyni, hogy létrehozzuk a magyarázó változók lineárisan „független” rendszerét. Modellben így kevesebb változó lesz, azonban így már kölcsönösen lineárisan független magyarázó változó szerepel.

A példa második részének a megoldásához regressziót kell számolni ugyanúgy, mint a szállodás példa esetén is. x: magyarázó változók (népesség, analfabéta, jövedelem, fagyos napok) y: független változó (gyilkosság). A regresszió beállításai:

3

Kapott eredmény:

A r értéke alapján lineáris korrelációt feltételezünk, markáns kapcsolat van a mennyiségi változók esetén. Az r2 értéke az r értékének a négyzetét kell venni, melyet determinációs együtthatónak hívunk. Kifejezési formája százalékos. Jelentése: a magyarázó változók 56,70%-ban magyarázzák a független változót. A standard hiba a szórás és a gyök elemszám hányadosával kerül meghatározásra. Ennek értéke: 2,53. Az elemek száma a vizsgált megfigyelések számát jelenti, esetünkben ez 50 darab. A Varianciaanalízis táblázat magyarázatát már a „szálloda.xls” anyag kidolgozásában áttekinthettük, illetve a gyakorlati órán át is beszéltük az egyes cellák jelentését. A következőkben a varianciaanalízis táblázat „p” értékének a felhasználásával kapunk arra választ, hogy mely változó értékét kell kiszűrni a példánkból annak érdekébe, hogy a modellünket validálni tudjuk. A feladat leírásában szereplő elsőfajú hiba értékét (5%) kell összehasonlítani a p értékeivel. Ezen p értékek a következők: Tengelymetszet Nepesseg Analfabetak Jovedelem Fagyos_napok

0,751 0,017 0,000 0,925 0,954 4

p-érték = 75,1% = 0,17% = 0,00% = 92,5% = 95,4%

A modellből azt kell kiszűrni, amelyik a legmagasabb értékűnk. Addig kell ez a kisz űrést megcsinálni, amíg találunk olyan p értéket, mely a feladatban megadott 5% értékénél nagyobb. Elsőnek tehát a Fagyos_napok változót kell kiszűrni. Azt úgy tudjuk megtenni, hogy egy újabb regressziót csinálunk a Fagyos_napok kivételével és a Regressziót újból elkészítjük. Az új modellhez tartozó regressziós értékek a következők:

A vizsgálatba vont p értékek: Tengelymetszet Nepesseg Analfabetak Jovedelem

p-érték 0,693 = 69,3% 0,011 = 1,1% 0,000 = 0,00% 0,925 = 92,5%

A legmagasabb p érték a 92,5%-nál van (Jövedelem). Mivel ez az érték nagyobb, mint 5%, így ezt is ki kell szűrni a modellből. Azt úgy tudjuk megtenni, hogy egy újabb regressziót csinálunk a Jövedelem-változó elhagyásával. Így már csak a népesség és az analfabéták maradnak benne a modellben.

5

Ha megvizsgáljuk a p értékét, akkor láthatjuk, hogy minden megmaradt p értékünk 5% alatt van. így ezt a modellt fogjuk végleges modellnek hívni. TEHÁT az utolsó modell megfelel a valóságnak. Ha véletlenül tovább számolnánk a modellt és még egy elemet kivennénk a modellből, akkor már szabálytalan lépést csinálnánk. Fontos még az AIC mutató kiszámítása is. Ezzel lehetőségünk van megtalálni azt a modellt, ami minimális paraméterekkel rendelkezik, de maximális információt biztosít számunkra.

AIC mutató kiszámítása: AIC

n * ln( SSE ) 2P , ahol a „p” a modell paramétereinek a n

száma konstanssal együtt. Így az AIC érték az egyes modelleknél: 1. modell: 97,74 (alap modell) 2. modell: 95,75 (- fagyos napok) 3. modell: 93,76 (- jövedelem) 4. modell: 127,31 (szabálytalan lépés esetén) Látható tehát, hogy amíg szabályosan haladunk a modell kiszűrésével, addig csökken az AIC értéke. Miután szabálytalan lépést teszünk megnő az AIC értéke.

6...


Similar Free PDFs