Regresjonsanalyse PDF

Title Regresjonsanalyse
Course Samfunnsvitskapleg metode
Institution Universitetet i Bergen
Pages 8
File Size 420.4 KB
File Type PDF
Total Downloads 969
Total Views 1,002

Summary

Warning: TT: undefined function: 32RegresjonsanalyseFørst og fremst: Regresjonsanalyse er vanskelig. For å lære seg regresjonsanalyse er det en terskel man må komme seg over, men så snart man er over denne terskelen kan man tolke hvilken som helst regresjonsanalyse på få minutter. Dette er en kjapp ...


Description

Regresjonsanalyse Først og fremst: Regresjonsanalyse er vanskelig. For å lære seg regresjonsanalyse er det en terskel man må komme seg over, men så snart man er over denne terskelen kan man tolke hvilken som helst regresjonsanalyse på få minutter. Dette er en kjapp repitisjon av det som ble gjennomgått på seminar 8 om hvordan man tolker en regresjonstabell.

Hvorfor regresjonsanalyse? Vi har allerede lært oss korrelasjonsanalyse. Så hvilken informasjon får vi vite i en regresjonsanalyse som vi ikke får fra korrelasjonsanalysen vår? Først og fremst så forteller korrelasjonsanalysen vår noe om sammenhengen mellom variablene. Den forteller oss (eksempelvis) at når X øker, så kan vi forvente en økning i Y. Hvis sammenhengen er negativ, så forteller korrelasjonsanalysen vår at når X øker, så forventer vi en reduksjon i Y. Korrelasjonsanalysen forteller oss også (i prosent) hvor mye samvariasjon det er mellom vairablene. Fordelen med regresjonsanalyse er at vi får vite eksakt hvor mye vi kan forvente at Y endrer seg når vi endrer X med én enhet. Vi endrer altså X med en enhet, og koeffisienten (coef.) vår er stigningstallet til variabelen. Regresjonsanalysen forteller oss altså både retning og styrke på sammenhengen mellom variablene.

Hvordan tolke en regresjonstabell: Figuren over viser en bivariat regresjosanalyse med stfgov som avhengig variabel. Vi bruker toland for å forklare variasjonen i stfgov. I mitt eksempel så er «toland» en dikotom variabel med Polen (PL) kodet som 0 og Norge (NO) kodet som 1.

Informasjonen i regresjonsanalysen kan litt forenklet deles i tre ut fra viktighetsgrad i MET102. Oppe til høyre har vi grunnmuren i hele regresjonsanalysen vår. Dette er svært viktig, men er bare ren deskriptiv statistikk, så det forklarer ingenting om styrken og retningen på sammenhengen mellom variablene, som er det vi egentlig er interessert i. Men for å forklare det vi egentlig er interessert i, så må vi forklare grunnmuren vår.

Tabell Tabellen en øver verst st til høyre øyre:: Tabellen øverst til høyre gir oss seks linjer med deskriptiv statistikk. Denne forteller oss antall observasjoner, regresjonens forklaringskraft og om regresjonen i seg selv er signifikant.

Number of obs: Antall observasjoner i analysen. Antall rader i datamatrisen. I denne regresjonen er enhetene personer, hhv nordmenn og polakker.

F(1, 3157): Regresjonens F-test. F-testen forteller oss noe om regresjonsanalysen som helhet. Akkurat denne regresjonsanalysen er bivariat (kun to variabler; en avhengig og en uavhengig variabel), så akkurat her gir den begrenset innsikt. F-verdien vår skal være over kritisk verdi, men dette svaret får vi i neste linje (Prob > F). Hensikten med F-test er at den tester om regresjonen som helhet er signifikant. Ftesten gir kun innsikt når man sammenlikner regresjoner med samme avhengige variabel. Eksempel: Gitt at du har to multivariate regresjonsanalyser med samme avhengige variabel (stfgov), men er usikker på om du vil bruke variabelen eduyrs eller eisced til å analysere respondentenes utdanningsnivå. Du kjører først en regresjonsanalyse med eduyrs og så en regresjonsanalyse med eisced. Den regresjonsanalysen med høyest F-verdi er den regresjonsanalysen som forklarer mest og er best egnet. Men så lenge F-testen er over kritisk verdi så er ikke dette noe å uroe seg for. PS: Det som står inni parentesene er regresjonens frihetsgrader. Her er det 1 enhet som ligger fast og 3157 frihetsgrader.

Prob > F: P-verdien til F-testen. Forklarer som nevnt over om regresjonen som helhet er signifikant. Vi opererer med 5% signifikansnivå, så alle regresjoner som har en P-verdi på under 0,05 er signifikante. I praksis vil du sjeldent se en regresjon som ikke er signifikant. Det er umulig å ha høy F-verdi og samtidig høy P-verdi på F-testen. Disse tallene henger sammen. Siden vi har svært høy F-verdi er regresjonen som helhet signifikant.

R-squared: Modellens forklaringskraft. Angir hvor mye av variasjonen i de uavhengige variablene som kan forklare endringen i Y. Oppgis ofte som prosentverdi ved at vi flytter komma to plasser til høyre. I denne regresjonen kan vi forklare 7% av endringen i X med endring i Y. Dette er et relativt lavt tall. Formelen for R-squared finner vi i ANOVA-tabellen vår oppe til venstre. SS står for «Sum of squares», og hvis vi tar tallet i «Model» og deler på «total» så får vi R-squared. Dette står beskrevet i Midtbøboken på side 87. Han bruker formelen Total variasjon = Forklart variasjon + Uforklarlig variasjon, eller forkortet: TV = FV + UV. Av dette så utleder han at R-squared er FV / TV. Altså: Hvis vi dividerer den variasjonen vi kan forklare i vår modell med den totale variasjonen i dataene, så får vi hvor mye variasjon vi kan forklare (i prosentverdi).

Adjusted R-squared: Står også beskrevet i Midtbø. Adjusted R-squared (på norsk: justert forklart varians) er det samme som R-squared, men gir en liten «straff» desto flere uavhengige variabler vi inkluderer i regresjonsanalyse. Dette er fordi vi kan «jukse» med R-squared ved å inkludere svært mange uavhengige variabler. Desto flere uavhengige variabler vi inkluderer, desto høyere vil R-squared være. Siden regresjonsanalyser er best med et sted opptil 4-7 variabler (mine ord), så må vi justere Rsquared. Adjusted R-squared vil alltid være lavere enn R-squared. Når vi skal skrive om forklart varians, så anvender vi som oftest R-squared fordi vi ønsker denne «korreksjonen».

Root MSE: Regresjonens standardfeil. Begrenset med informasjon om denne i pensum, men den desto høyere tall, desto mer spredt er observasjonene i datasettet. Man finner Root MSE ved å ta kvadratroten av tallet som er i MS-kolonnen og ser på «residual» i ANOVAen. Kvadratroten av 6.1462627 = 2.4792.

Den neder nederst ste tabell bellen: en: Den viktigste tabellen. Her får vi vite retningen og styrken på sammenhengen mellom de uavhengige variablene og den avhengige variabelen (stfgov). Den avhengige variabelen vil alltid stå i kolonnen lengst til venstre, øverst i regresjonstabellen. Dette er den variabelen vi ønsker å forklare. Vi har én uavhengig variabel (toland), og dens styrke og sammenheng er listet horisontalt. Det er også en linje for konstantleddet. Konstantleddet er av varierende interesse; det er svært interessant i bivariate analyser, men ellers er det koeffisientene (Coef.) som er kjernen i hele regresjonsanalysen. Jeg gjentar regresjonslikningen her: Y = a + b1x1 + e

Hvor Y = avhengig variabel, a = konstantleddet (_cons), b1 = helningskoeffisient/stigningstall til X1, X1 = de mulige utfallene på den uavhengige variabelen og e = residual / restledd / variasjon vi ikke klarer å forklare med våre variabler.

Coef: Angir sammenhengen og styrken på sammenhengen mellom X1 og Y. Dette er vårt helningsledd og er det vi er mest interessert i. Hvis koeffisienten er positiv, så kan vi forvente at en økning i X1 fører til en økning i Y. Hvis koeffisienten er negativ, så kan vi forvente at en økning i X1 fører til en reduksjon i Y. Begge deler er good shit og god stemning. Vi er på vei mot et «riktig svar». I denne tabellen så vet vi at vår uavhengige variabel toland er kodet slik: Polen = 0 og Norge = 1. Siden koeffisienten er positiv, så er en endring i X1, fra Polen (0) til Norge (1) forbundet med en økning i Y, som er stfgov (regjeringstilfredshet). Nordmenn er altså mer regjeringstilfreds enn polakker. For å få et endelig svar på hvorvidt vi kan forkaste vår nullhypotese må vi kommentere variabelens signifikans (se under).

Std. Err: Variabelens standardfeil. Dette er variabelens standardavvik, men siden vi snakker om en variabel så bruker vi begrepet «standardfeil».

t: Variabelens T-verdi. Henger sammen med signifikans. For å finne t-verdien så kan vi dele «Coef.» på «Std. Err». Altså; hvis vi deler koeffisienten på standardfeilen så får vi t-verdien. Alle T-verdier over 1,96 i absoluttverdi er signifikante på 5%-nivå. Dersom koeffisienten er negativ, vil også T-verdien være negativ. Dette er ikke noe problem. Minustegnet har ingenting å si.

P > |t|: Variabelens P-verdi. Vi bruker 5%-signifikansnivå. Litt forenklet (les mer om dette i pensum); vi tillater oss å ta feil i 5% av tilfellene. Det vil si at vi ikke ønsker en P-verdi som overstiger 0,05. Henger sammen med T-verdi. Det er umulig å ha en signifikant variabel på 5%-nivå som har lavere t-verdi enn 1,96 (i absoluttverdi).

Beta: Les om betakoeffisienter i Midtbø til neste seminar.

Figuren over er en multivariat regresjonsanalyse med Stfgov som avhengig variabel, og toland, gndr, eduyrs, hinctnta, lrscale, trstplt og stfeco som uavhengige variabler. Dette er kun ment som et eksempel. Regresjonen tolkes på samme måte selv om vi inkluderer flere variabler. Vi ser at når jeg øker antall variabler, så går antall observasjoner (Number of obs) ned. I min bivariate regresjon så hadde jeg 3,159 observasjoner, men har nå 2,468. En betydelig reduksjon, men det henger sammen med at det ikke er alle respondenter som har svart på alle spørsmålene i undersøkelsen. Det F-verdien min er høyere og over kritisk verdi, så denne modellen er «bedre» enn den bivariate. Pverdien til F-testen er fortsatt signifikant. Forklart varians har gått opp fra 0,0774 til 0,4892 – Det vil si; 48,92% av variasjonen i Y kan vi forklare med disse uavhengige variablene. Dette er et ganske høyt tall, vil jeg påstå. Noen av dere vil ha et mindre tall og noen vil kanskje ha et høyere tall. Root MSE har gått litt ned som følge av økt forklart varians. Vi anvender likevel Adjusted R-squared i oppgaven. Dette målet er bedre egnet, spesielt når jeg har litt mange uavhengige variabler. Det vi kan se er at vi ikke blir særlig «straffet» for mange uavhengige variabler. STATA er enig i at variablene er godt egnet. Dette fordi det ikke er et så stort avvik mellom R-squared og Adjusted R-squared. Vi kan nå vurdere våre seks hypoteser (jeg inkluderte sju uavhengige variabler i denne oppgaven, men likevel). Nullhypotesen er til enhver tid at det ikke er en sammenheng mellom stfgov og hver av de uavhengige variablene.

Resultater (kun for tabell 2): H1: Nordmenn har høyere regjeringstilfredshet enn polakker. Koeffisienten viser en ytterst marginal positiv sammenheng (dette leser jeg fra «Coef.»). T-verdien er langt under 2, hvilket fører til en svært høy P-verdi. Funnet er ikke statistisk signifikant og jeg velger å beholde nullhypotesen om at det ikke er noen sammenheng mellom landtilhørighet og regjeringstilfredshet. H2: Menn har høyere regjeringstilfredshet enn kvinner (Kvinne = 0, mann = 1). Koeffisienten viser en marginal negativ sammenheng. T-verdien er under 2 i absoluttverdi, hvilket fører til en høy P-verdi. Funnet er ikke signifikant hverken på 1%-nivå, 5%-nivå eller 10%-nivå. Vi beholder nullhypotesen vår om at det ikke er en sammenheng mellom kjønn og regjeringstilfredshet. H3: Yngre har høyere regjeringstilfredshet enn eldre Koeffisienten viser en negativ sammenheng. T-verdien er over 2 (i absoluttverdi) og funnet er signifikant på 5% nivå. Det er i tillegg signifikant på 1% nivå. Koeffisienten viser at når vi reduserer X, så kan vi forvente en økning i Y – altså at yngre har høyere regjeringstilfredshet enn eldre. Vi forkaster nullhypotesen vår og beholder H3 og er styrket i troen på at det er en sammenheng. Yngre har høyere regjeringstilfredshet enn eldre. Og så videre.

Eksempel på regresjonstabell: Jeg legger først ved tre utskrifter fra mine tre blokker. Tabellen kommer i bunn.

Blokk 1

Blokk 2

Blokk 3

Regresjonstabell som skal vedlegges oppgaven (dere må fylle inn egne tall, denne kan brukes som inspirasjon). Dette er oppgave 5.3:

Blokk 1: Toland Gndr Eduyrs Hinctnta Trstplt Stfeco Konstantledd: Justert R2 Modellens standardfeil (Root MSE) Observasjoner

Blokk 2:

Blokk 3:

Coef.

Beta

Coef.

Beta

Coef.

Beta

1,436***

0,278

1,492*** 0,108 -0,070*** 0,001

0,292 0,021 -0,102 0,001

-0,446*** 0,054 -0,016*** -0,016 0,400*** 0,391***

4,113 0,0771 2,4792

4,976 0,0813 2,4439

-0,087 0,011 -0,117 -0,017 0,386 0,344 2,302 0,3421 2,0604

3 159

2 681

2 628

*** = p < 0.1, ** = p < 0.05, * = p < 0.1

Merk dere at jeg har endret «blokk 3» til å nå ha seks variabler i stedet for sju som jeg brukte i mitt eksempel. Antall stjerner angir hvor signifikant resultatene er. Man får en «ekstra» stjerne i boken desto mer signifikant variabelen er. Få eller ingen stjerner viser at variabelen er ikke signifikant i det hele tatt. Jeg håper dette var til hjelp....


Similar Free PDFs