TEMA 17 - Multivariat regresjonsanalyse DEL I (22 PDF

Title TEMA 17 - Multivariat regresjonsanalyse DEL I (22
Author Gunnhild Sofie Vangsnes
Course Samfunnsvitskapleg metode
Institution Universitetet i Bergen
Pages 28
File Size 1.3 MB
File Type PDF
Total Downloads 101
Total Views 124

Summary

Download TEMA 17 - Multivariat regresjonsanalyse DEL I (22 PDF


Description

TEMA: Multivariat regresjonsanalyse DEL I  

Midtbø kap. 8: Multivariat regresjonsanalyse Arnesen, Berntsen og Grendstad

Kapittel 8 – Multivariat regresjonsanalyse: -

Knytter avhengig variabel til flere forklaringsvariabler o Mer fullstendig og dekkende bilde o Presisjon og troverdighet

-

Identifiserer effekten av en variabel samtidig som andre variabler holdes konstant

-

Kaster lys over forklaringsvariablenes relative betydning o Hvor god er denne forklaringen i forhold til andre forklaringer o Modeller med flere forklaringsvariabler skiller lettere de viktige forklaringene fra de mindre viktige forklaringene

-

Setter grupper av forklaringsvariabler opp mot hverandre o Multivariate analyser identifiserer den samlede effekten av enkeltvariablene innenfor hver av gruppene

-

Fra bivariat til multivariat utvides vektøykassen med justert variant av R2. o Hva vil det si? Det er en standarisert variant av helningskoeffisienten og en kollektiv variant av hypotesetesten.

8.2 En multivariat regresjonsmodell Den generelle multivariate regresjonsmodellen kan skrives slik: Y = a + b1X1 + b2X2.....bkX + e Forklaring av denne modellen: 

Modellen består av en avhengig variabel (a) – er lineært til et konstantledd, k forklaringsvariabler og et restledd.



I modellen er det flere forklaringsvariabler, og dermed flere helningskoeffisienter

For å gjøre det lettere har boken valgt å enkelt fokusere i fortsettelsen på en triviat modell, med kun to forklaringsvariabler: Y = a + b1X1 + b2X2 + e Forklaring av denne modellen: 

A er gjennomsnitsverdien til Y når begge forklaringsvariablene har verdien null



Konstantleddet er fortsatt relativt uinteressant



Helningskoeffisientene (b1 og b2) blir tolket som den gjennomsnittlige endringen i Y som følge av en enhets endring i den ene forklaringsvariabelen når den andre forklaringsvariabelen holdes konstant. o B1 måler derfor effekten av X1 på Y etter å ha kontrollert for X2 o B2 uttrykker effekten av X2 når X1 holdes konstant o Effekten av X1 er så å si «renset» fra effekten av X2, og omvendt.

8.3 Fra en bivariat til en trivariat modell: Verdiene til helningskoeffisientene er betinget av: 1. Korrelasjon mellom de to forklaringsvariablene 2. Effekten av den andre forklaringsvariabelen på den avhengige variabelen -

Jo større korrelasjon mellom forklaringsvariablene og jo sterkere påvirkningskraft av den andre forklaringsvariabelen, desto større er forskjellen mellom en gitt ^b i en bivariat analyse og en multivariat analyse

8.4 Sammenligning av koeffisienter: -

Ustandardiserte koeffisienter er usammenlignbare o Forskjellige målestokker

2 alternative standardiseringsmetoder: Betakoeffisienter: -

En rekke samfunnsvitenskapelige analyser bruker standardavviket til variablene for å definere en felles referanseramme

-

Framgangsmåten består: o Enten standardisere variablene først o Transformere ustandardiserte koeffisienter etterpå

-

Betakoeffisienten uttrykker den gjennomsnittlige endringen i standardavviket til den avhengige variabelen som følge av en enhets endring i standardavviket til forklaringsvariabelen når andre forklaringsvariabler holdes konstant

-

^B vil normalt (så lenge ikke korrelasjonen mellom forklaringsvariablene er for sterk) variere mellom +/-1, jo nærmere +/-1 desto mer betydningsfull eller effekten

-

Koeffisienter som er usammenlignbare før standardiseringen, er det som regel også etter standardiseringen o Tolkningen av årsakseffekter blir mindre presis når effekten av forklaringsvariabelen vurderes opp mot en konstruert skala

8.5 Modellens forklaringskraft: -

Problemet med R2 er at den aldri avtar når en ny forklaringsvariabel legges til modellen o Øker vanligvis, selv om forklaringsvariabelen er irrelevant

-

Derfor Juster R2 o Justeringen av frihetsgradene sørger for at justert R2 alltid er lavere enn R2

8.6 t-tester i multivariate modeller: -

Selv om utvalgsstørrelsen er den samme, avtar frihetsgradene når modellen blir større o Frihetsgradene påvirker standardfeilen og dermed p- og t-verdiene

-

I multivariate modeller avhenger standardfeilen til estimatene også av korrelasjonen mellom forklaringsvariablene

o Sterk korrelasjon → høyere standardfeil → mindre sjanse for å forkaste nullhypotesen o Høy korrelasjon mellom X 1 og X2 gjør det vanskelig å skille effekten av den ene fra den andre → ekstra usikkerhet om verdiene til b1 og b2 i populasjonen 8.7 F-tester i multivariate modeller: -

F-testen fokuserer på grupper av forklaringsvariabler

-

F-testen signifikanstester endringen i forklart varians

-

Blander forklaringskraft og signifikans sammen

-

Den underliggende ideen er at nye forklaringsvariabler bare bør være med i modellen så lenge de bidrar til en markert økning i den forklarte variansen

-

F-testen angir hvorvidt økningen er markert nok

-

Ettersom R2 alltid øker når nye forklaringsvariabler legges til i modellen, blir det opp til F-testen å avgjøre om økningen er signifikant forskjellig fra null

-

Hvis økningen i forklart varians er for liten – det vil si at økningen i R2 er større enn null, men ikke signifikant større enn null – holdes variablene utenfor modellen

-

Tilhørende p-verdi

Forelesing 17 – MET102 Multivariat regresjonsanalyse I Repetisjon 

Den grunnleggjande (bivariate) regresjonslikninga o Vi introduserte støy: Restleddet/residualet 

Når du har ein regresjonslinje vil linja aldri treffe nøyaktig. Det er det som man ikke kan forutse som er restleddet. Det blir på sett og vis avstanden, altså det du ikke kan forklare. Forhåpentligvis vil det være veldig smått.

 Kor god er modellen vår? o Forklaringskraft: R² og standardfeilen til regresjonen 

Hypotesetesting i regresjonsanalyse o T-test, med tilhørende p-verdi o Er effekta sterk nok og sikker nok til å kunne bli generalisert til populasjonen?



En del av dette vil bli repetert i dag (regresjonslikning, restledd og R^2)



T-tester og P-verdier har vi hatt om før



En del vil bli repetert på siste forelesning: Hypotesetesting



Multivariat regresjon er veldig likt bivariat regresjon, berre med fleire variablar



Vi tek oss god tid så de kan kome med spørsmål og kommentarar. Alle spørsmål er gode. Dersom eg går gjennom eksempla for fort, gje beskjed. Dette er eit komplisert fag, og det er betre å gje beskjed tidleg om ein fell av lasset.



Hugs: Viktig å lese før førelesing, det gjer alt mykje enklare. Førelesingane er eit supplement til pensum og vi er her for å hjelpe.

Førelesingane om multivariat regresjon I dag 21.03.2018   

Eksempel om timelønn. Frå gjennomsnitt, via bivariat regresjon til multivariat regresjon. Testing og tolking av dummyvariabler Litt om modelltesting

Neste førelesning 23.03.2018   

Fire sentrale tester i multivariat regresjon Forutsetninger for multivariat regresjon Kva fører til ikkje-signifikante funn?

Fire sentrale tester i multivariat regresjon 1. T-testen 2. Sammenlikning av effekter

3. Justert R2 4. Modelltest: F-testen Viktige forutsetninger for multivariat regresjon  

Multikolinearitet Interaksjonseffekter

Altså: Mye av det dere gjør i oppgaven kommer til å bli nøye gjennomgått på neste forelesning og før dere leverer oppgaven Repetisjon: Regresjonsanalyse 

Samfunnsforskere ønsker å forklare og forstå fenomen frå den virkelege verda



I kvantitativ analyse handler dette om å samle inn utval data (sett med tall) frå virkelegheita, og deretter teste sannsynet for at samanhengane vi finn i utvalet også gjelder i den virkelige verden – populasjonen (det vi ønsker å si noe om)



Med regresjonsanalyse forsøker vi å forklare eller predikere (forutsi) utfallet i ein variabel med utgangspunkt i éin annan variabel (bivariat regresjonsanalyse) eller fleire andre variabler (multivariat regresjonsanalyse)

Regresjonsanalyse

Ein modell som ser slik ut. I bivariat analyse har vi ein ganske enkel modell med ein uavhengig variabel som påverker (vi tror forklarer) den avhengige. I multivariat kjem det inn fleire variablar. Desse kan òg ha ei effekt på kvarandre. Multivariat regresjonsanalyse 

Det er aldri kun én forklaring på et samfunnsvitenskapelig fenomen 

Med bare en forklaring er den uspesifisert



Da hadde det heller ikke vært så interessant å studere



Tar form av et eksperiment: Hva er effekten av én variabel samtidig som andre variabler holdes konstant?



Kaster lys over forklaringsvariablenes relative betydning





Forklaringskraften



Hvor mye de enkelte påvirker hverandre og variabelen

Sette grupper av forklaringsvariabler opp mot hverandre 

I praksis blir det at variabler hører til en større type klasse (eks. inflasjon hører til økonomiske variabler)

Flere forklaringer 

Det er aldri kun én forklaring på et (samfunnsvitenskapelig) fenomen. Om det er kun én forklaring, er det kanskje heller ikke så interessant?



Modeller med kun én forklaringsvariabel er underspesifiserte.



De forteller oftest ikke er presist bilde av virkeligheten.



Ved å inkludere flere forklaringer får vi et mer fullstendig og dekkende bilde av de fenomenene vi studerer.

Eksperiment 

Vi kan utføre eksperimenter på samfunnet!



Tar for av et laboratorieeksperiment: Hva er effekten av én variabel når de andre holdes konstante?



Forklaringen isoleres fra de andre forklaringene, slik at vi kan tolke effekten av denne uavhengig av det andre.



I en diskusjon: «ja, men bare se bort i fra det akkurat nå»

Relativ betydning 

Multivariat regresjonsanalyse gir ikke bare svar på om en variabel er god eller ikke, men også noe om hvor god denne er i forhold til andre forklaringer.



Modeller med flere forklaringsvariabler kan lettere skille mellom de viktige og de mindre viktige forklaringene.

Grupper av variabler 

En forklaringsvariabel kan ofte betraktes som et medlem av en større klasse variabler:



Inflasjon hører til økonomiske variabler



Religiøsitet hørere til kulturelle variabler



Multivariat analyse identifiserer den samlede påvirkningen av gruppen variabler som helhet, så vel som enkelte variabler.

Eit eksempel om timelønn – Merk: Dette er ein hypotetisk modell med få einingar og få variablar Minst mulig ligninger. Ta i bruk internett om du vil lære mer. Her skal vi se på tabeller og tolke det. Eksempel om timelønn 

Repetisjon – Den beste måten å forstå hva som skjer i multivariat regresjon er å demonstrere hva som skjer når vi går fra bivariat regresjon og inkluderer flere variabler.



Hypotetisk modell



Anvendt statistikk – Jeg kommer til å bruke minst mulig likninger, men heller grafisk fremstilling og eksempler fra STATA.



Dette er bra for å forstå den grunnleggende logikken i regresjon, samtidig som vi lærer litt om hvordan dette kan gjøres i praksis.



MEN vi må innom et par likninger – men disse har dere også sett tidligere.



Merk: Alt vi har brukt så langt er hypotetiske modeller med få enheter og variabler

Kva forklarar timelønn?

Det beste anslaget på timelønna i populasjonen blir gjennomsnittet på 200 kroner Forelesing 21.03.18: Viss vi ikke vet noe annet om personene er det okei å sjå på gjennomsnittslønnen til vedkommende. Dette er den minste og enkleste modellen vi. Det er en god referansemodell. Vi starter helt grunnleggende med problemstillingen «Hva forklarer timelønn?» 

Dette er et tema alle kan mene litt om.



Datamatrise med seks enheter.



Gå gjennom kvart datapunkt



Spør salen: Hva er det beste anslaget på timelønn i populasjonen når vi ikke vet mer enn dette?



Hvis ikke vi vet noe som helst om personene er gjennomsnittet det beste anslaget vi har.



Jeg vil at dere skal tenke på gjennomsnittet som den minste statistiske modellen vi har i samfunnsvitenskapen.



Den er en god referansemodell.

Det er enklare å anslå timelønnen i populasjonen om vi veit utdanningslengda

Lønnstaker

Utdanning (år)

Timelønn (kr)

1

0

150

2

2

170

3

4

190

4

6

210

5

8

230

6

10

250

Kan de allereie sjå hvor mykje timelønna auker per år? Auke i timelønn per års utdanning = helningsleddet b (10 kroner)  Når vi lager en graf med dette, vil det gå opp med 10 hvert år. Timelønn ved null års utdanning = konstantleddet a (150 kroner)  Konstantleddet er der verdien krysser x-aksen (?) 

Noen som ser noen sammenhenger allerede?



Gå gjennom kvart datapunkt



Timelønnens økning per år er vårt helningsledd, mens timelønnen ved null års utdannelse er vår konstant.



Det er alt vi trenger for å lage en grafisk fremstilling!

Linær samanheng mellom utdanning og timelønn



Peik på kvart datapunk tog forklar



Det lønner seg å være evig student!



Gjennomsnittet i timelønn ligger på fem års utdannelse.



Men: Dette er ikke noe normalt sett finner i virkeligheten. Aldri er sammenhengen så lineær og konstant.



Hvis man hadde hatt slike sammenhenger, hadde vi ikke trengt regresjon!

Meir realistisk datamatrise med timelønn og utdanning Lønnstaker

Utdanning

Timelønn

1

0

150

2

2

200

3

4

180

4

6

200

5

8

260

6

10

240

Kan de her sjå kor mykje timelønna auker per års utdanning? 

Mer realistisk at lønnen varierer mer.



Gå gjennom kvart datapunkt



At vi ikke selv kan se sammenhengen er årsaken til at vi trenger regresjon! •

Dersom vi hadde sett det hadde vi ikke trengt å gjøre det

Grafisk framstilling av samanhenga mellom utdanning og timelønn

STATA finn den linja som passer best ved hjelp av minste kvadratsums metode (se Midtbø side 78-79) – det er en måte å regne ut for å sette linjen med minst mulig avstand fra verdiene



Prikkdiagram over tabellen på forrige side



Grafisk fremstilling av datamatrisen.



Vi ser en klar trend, men hvor skal vi sette linjen?



Personen med to års utdannelse tjener femti kroner mer i timen enn personen med ingen utdannelse, men personen med fire års utdannelse tjener kun 30 kroner mer.



Konklusjon: Lønnen varierer mer og er ikke like sterkt knyttet til utdanning, men det er en klar trend.



OLS: Statistikkprogrammet, i vårt tilfelle STATA, regner ut hvor linjen skal være. Dette gjør den ved en metode kan Minste Kvadratsums Metode som minimaliserer summen av avvikene fra regresjonslinjen og plasserer regresjonslinjen der avvikene er minst. Rett og slett der hvor den passer gjennomsnittlig best i forhold til alle enhetene. Dette gjekk vi gjennom på forrige førelesing



Vi kjenner ikke konstanten og helningsleddet til regresjonslinjen.



Vi kan se til resultatene for å vise hvordan linjen ligger grafisk.



Hvorfor er den ikke helt lineær? Det er også andre ting enn utdanning som kan forklare timelønn.

Stata rekner ut det vi treng til regresjonslinja

Vi henter verdier frå tabellen og finn regresjonslikninga

Kvar raude tal har blitt satt inn for x. Når det er snakk om 0 år er x lik 0. Når det er 5 år er x lik 5. Og så videre. Lineær regresjonslinje av samanhengen mellom timelønn og utdanning

Men hugs at dette er eit utval, og da har vi eit restledd (residual): Regresjonslinje for utvalet: Y = 158,57 + 9,29X + e



Regresjonslinjen vil alltid passere gjennom gjennomsnittene til X og Y.



Regresjonslinjen vil alltid plasseres der hvor summen av (de kvadrerte) avvikene er minst.



Ingen andre linjer vil passe bedre i forhold til datapunktene enn denne linjen.



Benkpress eksempel: Seks personer tar et maksløft. Uavhengig variabel er antall ganger de trener i måneden. Jo mer trening per måned, jo mer kilo i benk. Men vi ser at dette avviker litt? Hvorfor? Er dette viktige forklaringer? Kanskje for idrettsutøvere, men for vanlige folk er det kanskje ikke så viktig så lenge vi har progresjon. De mindre viktige forklaringene ender opp i restleddet.

Restleddet/residualet 

Restleddet er støyen i våre modeller, dvs. avviket mellom det vi predikerer (regresjonslinjen) og det vi har observert i virkeligheten (datapunkte våre)



Hensikta er å gjøre restleddet så lite som muleg. Jo mindre restleddet er, jo meir presis er modellen



Er målet å inkludere alle relevante forklaringar slik at restleddet blir null?



Nei: Dette er ein modell av virkeligheita, der vi inkluderer dei viktigaste forklaringane



Restleddet fanger opp dei mindre viktige forklaringene

Kan vi like greit bruke gjennomsnittet på 205 kroner?

Kunne vi likså godt brukt gjennomsnittet for å si noe om timelønnen i populasjonen? 

Signifikansen: Hvis utdanning har en signifikant effekt, er det lurt å inkludere denne i forklaringen.



R2: Viser hvor mye utdanning bidrar til å forklare i vår modell.



Dette tar utgangspunkt i hvor mye variasjon som finnes totalt, og hvor mye variasjon vår regresjon kan forklare basert på utvalget vårt. Eksempel ved 8 års utdannelse.



FV: Nærmer seg det observerte i forhold til gjennomsnittet



UV: Dette ligger i restleddet



TV: Det forklarte og det uforklarte!

HUSK! R2 er basert på summen av alle avvikene. Altså summen at den forklarte variasjonen i hele utvalget delt på summen av den totale variasjonen i utvalget.

Det vil si at denne sammenhengen kan vere med på å forklare. T-verdien ligger godt over ...


Similar Free PDFs