Korrelasjonsanalyse og regresjonsanalyse PDF

Title Korrelasjonsanalyse og regresjonsanalyse
Course Sosiologiske perspektiver og analyser
Institution Universitetet i Sørøst-Norge
Pages 8
File Size 162.1 KB
File Type PDF
Total Downloads 653
Total Views 701

Summary

Uke 7 – Korrelasjonsanalyse og regresjonsanalyse Foreleser: Jens B. Grøgaard DAGENS TEMA: - Bivariat analyse: korrelasjonsanalyse - Bivariat/multivariat analyse: regresjonsanalyse  Variabler med mange verdier/kontinuerlige variabler - Tabellanalyse  Variabler med få verdier/kategoriske variabler K...


Description

Uke 7 – Korrelasjonsanalyse og regresjonsanalyse Foreleser: Jens B. Grøgaard

DAGENS TEMA: -

Bivariat analyse: korrelasjonsanalyse

-

Bivariat/multivariat analyse: regresjonsanalyse

 Variabler med mange verdier/kontinuerlige variabler -

Tabellanalyse

 Variabler med få verdier/kategoriske variabler

KORRELASJON Korrelasjon er samsvar eller samvariasjon mellom 2 variabler. Det finnes ulike mål for korrelasjon – den mest vanlige er Pearsons produkt-moment-korrelasjon: Pearsons r. Korrelasjon måler hvorvidt spesifikke verdier på en variabel ofte henger sammen med spesifikke verdier på den andre variabelen. Det varierer mellom -1 og 1.

Tolkning av korrelasjonen r mellom to variabler Når verdien på den ene variabelen øker med ett standardavvik, endres verdien på den andre variabelen i gjennomsnitt med r standardavvik. Eller bedre: en økning i verdien på den ene variabelen med ett standardavvik er (statistisk) assosiert med en gjennomsnittlig endring på den andre variabelen med r standardavvik.

HVORFOR REGRESJONSANALYSE? Det kan først være om behovet, om ønsket kontroll. Når vi ønsker å finne ut hvordan X påvirker Y, så ønsker vi å isolere denne påvirkningen. Problemet kan opptå når X varierer, så varierer ofte mange andre faktorer samtidig. Løsningen kan være å holde alle andre faktorer konstante. Korrelasjonsanalyse tar ikke hensyn til dette, da det er bare enkel samvariasjon mellom to variabler.

Regresjonsanalyse Det er en avansert statistisk teknikk for å analysere hvordan X påvirker Y, som muliggjør: -

Å analysere kontinuerlige variabler

-

Å analysere mange variabler samtidig

-

Å kontrollere for effekten av andre variabler

-

Men, fortsatt problem med gjensidig kausalitet

Vi begynner med bivariat regresjonsanalyse – det vil si regresjonsanalyse med én uavhengig og én avhengig variabel – og fortsetter med multivariat regresjonsanalyse (minium to uavhengige variabler, ofte langt flere).

HVA ER LINEARITET? Hvordan beskrive en lineær sammenheng mellom to størrelser som samvarierer?

Når sammenhengen mellom 2 variabler kan beskrives ved hjelp av en rett linje, snakker vi om en lineær sammenheng. En lineær sammenheng har vi når en endring i X (uavhengig variabel) fører til en bestemt endring i Y (avhengig variabel), uansett hvor på X-aksen vi befinner oss.

To eksempler: 1. Hvordan beskrive en rett linje (en lineær sammenheng)? -

Illustrasjon: ukelønn og arbeidstid

2. Hvordan estimere regresjonskoeffisienter? -

Bivariat illustrasjon

 den statistiske sammenhengen mellom boliggjeld og botid -

Multivariat illustrasjon

 den statistiske sammenhengen mellom boliggjeld og botid og bosted (to uavhengige)

Regresjonslikning Y = b0 0 b1X1

-

Y = avhengig variabel

-

X1 = uavhengig variabel

-

b0 = konstantledd – verdien på Y når X1 = 0

-

b1 = stigingskoeffisient – hvor mye Y endrer seg når X endrer seg med en enhet

Regresjonslikningen for sammenhengen mellom inntekt (Y) og antall arbeidstimer (X1): -

Y = 500 + 100*X1

Linearitet er ofte urealistisk Men, modeller er nyttige forenklinger av virkeligheten. Linearitet kan gi en god beskrivelse av tendensen i sammenhengen.

Se 2. forelesning Regresjon JBG s. 15-20 for eksempel

Tolkning av regresjonstabellen

Konstant: Gjennomsnittlig boliggjeld når uavhengig variabel er null (null års botid). Vi ser at denne gjelden er 579 301 kr. Hvis uavhengig variabel ikke er definert for null, for eksempel ved at skalaen begynner på verdien 1, er 579 301 kr det punktet på Y-aksen (gjeldssaken) der regresjonslinjen krysser aksen.

Ustandardisert stiginingskoeffisient (helningskoeffisient) B: -15 464 kr. To tolkninger: 1. Den kausale  Når botiden øker med ett år, reduserer gjennomsnittlig boliggjeld med 15 464 kr, eller gjennomsnittlig boliggjeld reduserer med 15 464 kr for hvert år man bor i egen bolig. 2. Den statistiske

 En økning i botid i egen bolig, med et år – er i gjennomsnitt assosiert med en reduksjon i boliggjelden på 15 464 kr.

Den standardiserte koeffisienten beta er i en bivariat regresjon (en uavhengig variabel) Den er identisk med korrelasjonskoeffisienten Pearsons r (beta = .543). Nå er enheten standardavvik, dvs. at en økning på et standardavvik i botid er gjennomsnitt assosiert med en reduksjon i boliggjeld med 0,543 standardavvik.  en sterk statistisk sammenheng. Man kan merke at konstantleddet ikke har standardisert koeffisient, fordi når vi korrelerer to variabler og beregner korrelasjonskoeffisienten r, har begge gjennomsnitt 0 (og standardavvik 1).

Hvordan tolke standardfeil, test-operator (T) og signifikansnivå? Standardfeilen måler standardavviket i «sampling-fordelingen», altså fordelingen av koeffisienter i gjentatte like store utvalg. Standardfeilen er et mål på usikkerhet.

Test-operator (T) måler antall standardfeilenheter mellom null og den koeffisienten som estimeres/beregnes i regresjonen.

Signifikanssansynlighet er sannsynligheten for å ta feil hvis vi forkaster påstanden om at koeffisienten er 0, eller om sannsynligheten for å ta feil, dersom vi forkaster nullhypotesen. For eksempel om at boliggjelden ikke reduseres etter hvert som botiden øker.

Siden standardfeilen måler standardavviket – fordelingen i gjentatte utvalg - kan vi tenke oss at vi trekker mange like store tilfeldige utvalg fra populasjonen og hvert utvalg gir en regresjonstabell. Men tabellene blir ikke helt like, regresjonskoeffisientente, test-operator, signifikans og standardfeil varierer fra tabell til tabell, dvs. mellom utvalgene. Statistisk teori og praksis (erfaring og simuleringer) gis oss alle disse tallene. Da får regresjonskoeffisientene (B´er og beta) et standardavvik som vi kaller standardfeil, for å ikke veksle med standardavviket til variablene i det utvalget vi har. Dette intervallet kalles et 95% kofindensintervall for koeffisienten. Man har 5% sjanse for å ta feil.

HVORDAN FINNER VI REGRESJONSLINJEN? «Minste kvadraters metode»

Da kan vi beregne regresjonskoeffisientene (a og b´er)/regresjonslinjen. Vi har et stort sett av observasjoner om hvordan enheter fordeler seg på to variabler. Ut i fra disse observasjonene, prøver vi å lage en rett linje som beskriver sammenhengen best mulig. De faktiske observasjonene vil avvike fra den rette linjen. Regresjonslinjen kommer vi frem til ved å minimere disse avvikene.  Vi minimerer summen av disse avvikene når de multipliseres med seg selv (dette kalles kvadrering), og metoden kalles minste kvadraters metode. Regresjonslinjen er den linjen som gir de minste avvikene (dvs. den minste sum av kvadrerte avvik mellom observasjoner og regresjonsmodell). Regresjonslinjen gir den beste lineære tilpasning til observasjonene, og avvikene representerer det vi ikke kan forklare.

MULTIPPEL REGRESJON (TRIVARIAT) Hvordan tolkningen påvirkes av at vi har flere uavhengige variabler Kontrollvariabelmetoden

Multippel regresjon: -

Avhengig variabel: boliggjeld

-

Uavhengig variabler: botid, hvorvidt man bor i Oslo-Akershus eller ikke

Tolkning Regresjonskoeffisient Oslo og Akershus: 76667 I gjennomsnitt har personer bosatt i Oslo og Akershus 76667 kr mer i gjeld, enn personer bosatt i andre fylker – når botiden deres holdes konstant.

Standardfeil (standardavviket i «sampling-fordelingen»): 15468 -

95% konfindensintervall

-

(76667-1,96*15468, 76667+1,96*15468)kr=(46350, 106526)kr.

Vi er 95% skre på at den gjennomsnittlige forskjellen i boliggjeld mellom bosatte i Oslo og Akershus og bosatte i andre fylker befinner seg i intervallet mellom 46 350kr og 105 526 kr, når antall år bosatt i egen bolig holdes konstant.

Tolkning Regresjonskoeffisient antall år i nåværende bolig: -15 234. -

I gjennomsnitt reduseres gjelden med kr. 15 234 hvert år man bor i sin bolig.

-

Standardfeil: 636.

-

95% konfidensintervall (-15234-1,96*636, -15234+1,96*636) kr=(16481,-13987)kr.

-

Vi er 95% sikre det av den gjennomsnittlige reduksjonen i gjeld per år, bosatt i egen bolig – befinner seg i intervallet mellom 16 481kr og 13 987kr, når bostedsfylkes holdes konstant.

Konstantledd: 562 151 -

Gjennomsnittsverdien (gjeld) når begge uavhengige variabler har verdien null: antall år i nåværende bolig er 0 år og bor i andre fylker enn Oslo og Akershus.

-

I gjennomsnitt har disse personene en gjeld på 562 151 kr.

Tolkning Vi har også standardiserte koeffisienter i en regresjon (BETA) -

Beta for botid er -0,517 og beta for bosted (er 0,107).

-

Når standardavviket enhet og tolkningen er som følger;

 En økning i botiden med ett standardavvik, når bostedet holdes konstant, er i gjennomsnitt assosiert med en reduksjon i boliggjelden med 0,517 standardavvik.  En økning i bostedsvariabelen med ett standardavvik er i gjennomsnitt assosiert med en økning i boliggjelden med 0,107 standardavvik – alt annet likt, dvs. når botiden holdes konstant.

T=B/Std.Error (B): Kalles for test-operator Dette uttrykker hvor mange standardfeilenheter vi må bevege oss bort fra 0 (ingen forskjell) for å finne koeffisienten. T har fortegn, dvs. vi beveger oss i en bestemt retning.

Signifikanssansynlighet Sannsynligheten for å ta feil dersom vi forkaster nullhypotesen – påstanden er koeffisienten er null.

LITT OM FORUTSETNINGENE I REGRESJONSANALYSE Generelle forutsetninger 1. Ingen spesfikasjonsfeil (nesten aldri oppfylt) -

Idealet i forskning er at alle relevante enheter og variabler skal med. I praksis velges noe ut, mens alt annet neglisjeres.

-

Må ha en teoretisk begrunnelse for utvelgelsen.

2. Linearitet -

Brudd på denne forutsetningen er ødeleggende, men forholdsvis enkelt å håndtere:

 Matematiske transformasjoner.  Lage kategorier som fanger opp avvik fra linearitet. 3. Multikolinearitet -

Høyre korrelasjoner mellom uavhengige variabler.

-

Kaster ut en/noen av variablene.

Forutsetninger på restleddet/feiltermen 1. Lik utbredelse -

Homoskedastisitet

-

Matematiske transformasjoner

2. Normalfordelte restledd -

Oppfylt dersom den avhengige variabelen er tilnærmet normaltfordelt

3. Ikke korrelasjon mellom restledd -

Krav om statistisk uavhengighet

4. Ikke korrelasjon mellom restledd på en variabel og verdier på andre variabler -

Kalles uobservert heterogenitet, kan også oppfattes som en spesifikasjonsfeil

 Brudd på disse forutsetningene kan gi skjeve estimater/anslag på effekter av ulike variabler....


Similar Free PDFs