Multivariat-regresjonsanalyse PDF

Title Multivariat-regresjonsanalyse
Author trine hoel
Course Samfunnsvitskapleg metode
Institution Universitetet i Bergen
Pages 11
File Size 290.6 KB
File Type PDF
Total Downloads 166
Total Views 311

Summary

MULTIVARIAT REGRESJONSANALYSEHVA ER MULTIVARIAT REGRESJONSANALYSE?En multivariat (multippel) regresjonsanalyse knytter en avhengig variabel til flere forklaringsvariabler. Den har flere fordeler, som for eksempel at den gir et mer fullstendig og dekkende bilde av fenomenene man skal studere. Beskriv...


Description

MULTIVARIAT REGRESJONSANALYSE HVA ER MULTIVARIAT REGRESJONSANALYSE?

En multivariat (multippel) regresjonsanalyse knytter en avhengig variabel til flere forklaringsvariabler. Den har flere fordeler, som for eksempel at den gir et mer fullstendig og dekkende bilde av fenomenene man skal studere. Beskrivelsene av årsakssammenhengene blir mer presise, og dermed mer troverdige. Modeller med bare én forklaringsvariabel er nærmest per definisjon underspesifiserte, og underspesifiserte modeller kan gi misvisende resultater. En opprinnelig bivariat effekt kan ende fullstendig karakter både hva angår styrke, signifikans og sågar fortegn når den analyseres på nytt i en multivariat modell. Fordelen med den multivariate regresjonsanalysen er at den, på samme måte som det kontrollerte laboratorieeksperimentet, identifiserer effekten av én variabel samtidig som andre variabler holdes konstant. Forklaringene isoleres fra andre forklaringer, og effektene tolkes uavhengig av andre effekter. Den multivariate analysen kaster også lys over forklaringsvariablenes relative betydning. Analysen gir ikke bare svar på hvorvidt en forklaring er god eller ikke, men den sier også noe om hvor god denne forklaringer er i forhold til andre forklaringer. Modeller med flere forklaringsvariabler skiller lettere de viktige forklaringene fra de mindre viktige forklaringene. Analysen kan også sette grupper av forklaringsvariabler opp mot hverandre. En forklaringsvariabel er ofte å betrakte som et medlem av en større klasse av variabler. For eksempel tilhører inflasjon gruppen av økonomiske variabler, mens religiøs tilhørighet er én av flere kulturelle variabler. Den multivariate analysen identifiserer den samlede påvirkningen av gruppene som helhet så vel som den unike effekten av enkeltvariablene innenfor hver av gruppene. VIKTIGE BEGREPER INNENFOR REGRESJONSANALYSE

1. Datainnsamling Etter å ha identifisert variablene som skal med i modellen, må man finne data som representerer dem. Et innledende spørsmål vil da være hvilken type variasjon man er interessert i. Valget står mellom én av to dimensjoner eller en kombinasjon av dem: Én mulighet er å samle inn data på ett enkelt tidspunkt i form av en tverrsnittsanalyse. En annen er å bruke data som endrer seg over tid i en tidsserieanalyse, mens et tredje 1

alternativ er å kombinere tid og rom i en og samme modell i form av panelanalyse. Tilbudet av samfunnsvitenskapelige data har i de senere årene blitt stadig bedre hva gjelder pålitelighet, relevans og omfang. De fleste av datakildene er nå også tilgjengelig på internett. Datainnsamling via internett setter midlertidig særskilte krav til kildekritikk, og datakilder bør alltid velges med omhu. Kvalitetene på dataene bestemmer resultatenes troverdighet. 2. Den justerte R2 Den justerte R2 viser til forklaringskraften til den multivariate regresjonsmodellen. Man kan også kalle det forklart varians, som betyr hvor mye forklaringsvariablene forklarer av variasjonen i den avhengige variabelen. I en matrise fra Stata, viser justert forklart varians (den justerte R2) hvor mange prosent av endringen i den avhengige variabelen som blir forklart av alle variablene samlet. Den ligger mellom 0 og 1, og kan dermed tolkes som en prosent av variasjonen. Har man flere matriser/tabeller sammenligner man gjerne den justerte R2, og ser om den blir høyere eller lavere fra blokk til blokk. Dersom man observerer endring i forklart varians, må man se på om denne endringen er signifikant (pverdien til f-testen) 3. En-halet og to-halet hypoteser En en-halet hypotese er retningsbestemt, og kan utformes slik: H1 -> Barn som ammes fram til 2 år har høyere IQ enn andre. Man lager en-halet hypotese når man har en klar formening om hvilken retning effekten går i/effekten kan bare tenkes å gå i en retning -> korrelasjonen er positiv og større enn null, eller korrelasjonen er negativ og mindre enn null. En to-halet hypotese er ikke retningsbestemt, og kan utformes slik: H1 -> Barn som ammes fram til 2 år har forskjellig IQ enn andre (dette betyr ikke at de kan ha lavere eller høyere IQ enn populasjonen) Man lager en to-halet hypotese når man ikke har en klar formening om hvilken retning effekten går i/effekten kan ikke tenkes å bare gå i en retning -> korrelasjonen er ikke lik null. Alt en sier her er at det er en sammenheng mellom to variabler. 3. F-test 2

En f-test befinner seg mellom ytterpunktene justert r2 og t-test. F-testen fokuserer på grupper av forklaringsvariabler og signifikanstester endringen i forklart varians. I en modell med tre forklaringsvariabler (X1, X2 og X3), sier justert R noe om de tre variablenes samlede forklaringskraft, mens ttesten avgjør for eksempel om X3 bør være med i modellen. F-testen retter på sin side oppmerksomheten mot berettigelsen av en bestemt gruppe variabler, for eksempel X2 og X3, noe den gjør ved å undersøke nullhypotesen. F-testen tar forklaringskraft og signifikans, som man ellers holder adskilt, og blander dem sammen. Den underliggende ideen er at nye forklaringsvariabler bare bør være med i modellen så lenge de bidrar til en markert økning i den forklarte variansen. F-testen angir hvorvidt økningen er markert nok. Justert R2 øker som regel når nye forklaringsvariabler legges til i en modell, hvor det da er opp til F-testen å avgjøre om økningen er signifikant forskjellig fra null. Hvis økningen i forklart varians er for liten – det vil si at økningen i justert R2 er større enn null, men ikke signifikant større enn null, holdes variablene utenfor modellen. Som for t-verdiene har f-verdiene en tilhørende p-verdi. Dette er en fordel siden det ikke finnes noen tommelfingerregel for hva som er å anse som en signifikant f-verdi. P-verdien tolkes på samme måte som i t-tesen: den angir sannsynligheten for å få en gitt f-verdi dersom nullhypotesen er korrekt. F-testen bør anvendes på grupper av forklaringsvariabler med generelle egenskaper til felles. 4. Gjennomsnitt Gjennomsnittet er et av flere alternative mål for å identifisere den typiske verdien de andre verdiene klynger seg rundt. For en variabel X er gjennomsnitter (X – med streken på toppen) lik summen () av verdiene til X (Xi) delt på antall enheter (N). Et gjennomsnitt har flere egenskaper. Den totale summen av avvik fra gjennomsnittet er alltid lik null. Gjennomsnittet er også unikt i den forstand at den totale summen av avvik rundt ethvert annet tall ville ha vært større. Summen av negative avvik fra gjennomsnittet vil også alltid være lik summen av de positive avvikene fra gjennomsnittet. Summen av de kvadrerte avvikene rundt gjennomsnittet er alltid mindre enn de kvadrerte avvikene rundt ethvert annet tall. 5. Hypoteser Teorier er for generelle og abstrakte til å kunne testes direkte. De må spesifiseres og presiseres i form av hypoteser. Hypoteser er empiriske argumenter som avledes av teorien, og som gir foreløpige svar på problemstillingen. At en hypotese er foreløpig betyr at de først kan finne støtte etter at den empiriske analysen er gjennomført. Hypoteser kommer 3

også i ulike varianter. Et skille går mellom nomotetiske hypoteser som favner over lange tidsrom og/eller store geografiske områder, og ideografiske (eller singulære) hypoteser som fokuserer på enkeltstående hendelser og avgrensede felt. Regresjonsanalysen spesielt, og kvantitativ analyse generelt, brukes som oftest nomotetiske hypoteser. Et annet skille går mellom beskrivende og forklarende hypoteser. Beskrivende hypoteser sier noe om egenskapen ved enkeltvariabler, mens forklarende hypoteser tar for seg sammenhenger mellom to eller flere variabler. «De offentlige utgiftene har økt de siste ti årene» er et eksempel på en beskrivende hypotese, mens en forklarende hypotese kan være at «økonomisk velstand fører til høyere offentlige utgifter». Den første hypotesen sier at noe er slik, den andre forklarer hvorfor er det slik. En regresjonsanalyse inneholder alltid minst to variabler, og hypotesene vil derfor være forklarende. 6. Hypotesetesting Formålet med hypotesetesting er å avklare om en bestemt sammenheng som er påvist i utvalget, også med en viss sannsynlighet kan antas å gjelde i universet. Utgangspunktet er en hypotese (H1) om en bestemt sammenheng, for eksempel: H1: Det er en sammenheng mellom inntekt og boligstørrelse. For å finne ut om denne sammenhengen er sterk til at man med stor sannsynlighet kan si at den ikke skyldes tilfeldige forskjeller mellom utvalget og universet, formulerer man en hypotese om at det ikke er en sammenheng mellom de to variablene. Denne hypotesen kalles nullhypotesen (H0): H0: Det er ingen sammenheng mellom inntekt og boligstørrelse. Hypotesen fokuserer ikke på den egentlige hypotesen, men på nullhypotesen. Grunnen er at det rent statistisk er enklere å forkaste en hypotese enn å bevise at en hypotese er riktig. Hvis nullhypotesen ikke kan forkastes, kan man ikke anta at den egentlige hypotesen er riktig. Hvis nullhypotesen kan forkastes, vil den egentlige hypotesen bli styrket, og man kan anta at sammenhengen i utvalget også gjelder for universet. I henhold til å forkaste nullhypotesen kan man gjøre to feil. Den første er en type I-feil, og den andre er en type II-feil. Konsekvensen av en type I-feil er at man feilaktig anser hypotesen

4

som styrket, mens konsekvensen av en type II-feil er at hypotesen feilaktig blir forkastet. 7. Multikolinearitet Multikolinearitet er en uttrykk for korrelasjon mellom de uavhengige variablene. Dersom korrelasjonen mellom to variabler er for høy, risikerer man å måle et fenomen to ganger. For praktiske formål blir grensen for multikolinearitet satt ved 0,50. Man kan se for seg to sirkler, med navn X1 og X2. Dersom de to sirklene ikke korrelerer, det vil si at de to sirklene ikke berører hverandre, vil helningskoeffisientene i en trivariat og en bivariat modell være identiske. Skulle derimot sirklene overlappe fullstendig, blir det umulig å beregne helningskoeffisientene og standardfeilene. Da har man for mye av det «gode»: korrelasjonen mellom forklaringsvariablene, som er selve rasjonalet bak den multivariate regresjonsanalysen, er så ekstrem at den samme analysen bryter sammen. Denne situasjonen betegnes som perfekt multikolinearitet. En slik multikolinearitet skyldes regelrette feilgrep i modellspesifikasjonen, som for eksempel å inkludere en dummyvariabel for mye i modellen – er det den høye multikolineariteten som er bekymringsverdig. I slike tilfeller estimerer regresjonsmodellen koeffisientene basert på svært lite informasjon. Høy multikolinearitet gjør det vanskelig å skille effektene fra hverandre. 8. Modellformulering Teoriene kan formaliseres i form av modeller, det vil si formelle abstraksjoner bygget på eksplisitte forutsetninger. Modellen forsøker å fremheve de mest interessante aspektene ved virkeligheten. Den gjør analysen ryddig og oversiktlig, og den tydeliggjør årsaks- sammenhenger. Modellen bidrar gjennom sin åpenhet til at det blir lettere å kritisere analysen. En god modell fremstår som en avveining mellom realisme og enkelhet. Jo større modellen er, desto mer realistisk vil den være. Store modeller gir midlertidig liten oversikt, og det blir problematisk å danne seg et realistisk bilde av den realistiske modellen. Et sentralt element i modellen er variabelen. Dette kan defineres som en egenskap ved fenomenene vi undersøker. Man kan skille mellom en variabel Y som påvirkes og en variabel X som påvirker. Y representerer resultatet, X årsaken. Y er også den avhengige variabelen, og X er den uavhengige variabelen/forklaringsvariabelen.

5

Eksempel: Årsaksdiagram

Den avhengige variabelen fremstår som en funksjon av tre forklaringsvariabler: Offentlige utgifter spesifiseres som et resultat av økonomisk velstand, styrken til sosialdemokratiske partier, andel pensjonister, andel kvinnelige parlamentsmedlemmer og hvorvidt landene er skandinavisk eller ikke. De firkantede boksene er variablene, og «pilene» er årsaksretningen. I årsaksdiagrammet er retningen og størrelsen av effektene beskrevet ved henholdsvis B1, B2, B3, B4 og B5. Hva retningen angår, er den angitt med «+» for positive effekter og «-» for negative effekter. At effekten er positiv, betyr at høye verdier på X fører til høye verdier på Y, og at lave verdier på X fører til lave verdier på Y. De to variablene beveger seg med andre ord i samme retning. En negativ effekt innebærer derimot at høye verdier på X går sammen med lave verdier på Y, og at lave verdier på X går sammen med høye verdier på Y. Variablene beveger seg i motsatt retning. Jo større B-en er (i positiv eller negativ retning), desto større effekt har den angjeldende forklaringsvariabelen. Størrelsen på en effekt er for øvrig noe som bør vurderes etter har retningen er fastslått. Modellen presiserer også årsaksretningen, også kalt kausaliteten, mellom variablene. Den øverste pilen beskriver økonomisk velstand som en dirkete årsak til det offentlige utgiftsnivået. Modellen utelukker dermed en motsatt årsaksretning hvor den offentlige sektor påvirker den økonomiske velstanden, noe som ville vært indikert med en pil FRA offentlige utgifter MOT økonomisk velstand. Årsaksretninger er vanskelig å teste, og må postuleres ut fra teoretiske og fornuftsmessige kriterier før modellen estimeres. Tidsrekkefølgen kan midlertidig være til hjelp. Årsaken kommer alltid før resultatet. Det som kommer senere i tid, kan ikke forårsake det som kommer før i tid. Det er for eksempel åpenbart at lønnsforskjeller ikke 6

forårsaker kjønn, selv om det motsatte godt er mulig. Til de postulerte effektene i figuren er det knyttet mer uklare tidsrekkefølger og årsaksretninger. For eksempel vil økonomer kunne innvende at den offentlige sektor ikke bare er påvirket av, men også påvirker økonomien. Dersom så er tilfellet, vil vanlig regresjonsanalyse (i motsetning til mer avanserte versjoner) gi feilaktige resultater, ettersom den forutsetter entydige årsakseffekter med bare én avhengig variabel. 9. Operasjonalisering av variablene Innsamling, bearbeiding og koding av data kalles måling. For i det hele tatt å kunne gjøre noe målbart på operasjonaliserte definisjoner angi hvilke empiriske fenomener som faller inn under de teoretiske begrepene. De operasjonelle definisjonene fungerer som bindeledd mellom abstrakte definisjoner og konkrete data. Spørsmålet blir da hvor solid dette bindeleddet er – spørsmålet blir da hvor solid dette bindeleddet er. Måler man det man vil måle? Kaster den operasjonelle definisjonen tilstrekkelig lys over den teoretiske definisjonen? Vi har å gjøre med målefeil når den observerte variasjonen skyldes egenskaper ved måleinstrumentene og ikke fenomenene selv. Målefeil kan knyttes til begrepene reliabilitet og validitet. Reliabilitet er et spørsmål om hvorvidt resultatene er konsistente og nøyaktige. Validitet er et spørsmål om vi måler det vi faktisk ønsker å måle. I motsetning til reliabilitet som kan undersøkes i form av gjentatte målinger, er validitet i bunn og grunn et vurderingsspørsmål. Dette gjelder både intern validitet, som vil si om målene evner å representere de teoretiske begrepene, og ekstern validitet, som vil si om resultatene er gyldig utover utvalget som skal analyseres. 10.

P-verdi

P-verdien i en multivariat regresjonsanalyse forteller deg om en hypotese er statistisk signifikant – den viser til om det man observerer i et utvalg er en tilfeldighet eller ikke. Den må være lik eller mindre enn signifikansnivået, hvor det da oppstår en signifikant sammenheng. Om det er en signifikant sammenheng, kan man forkaste nullhypotesen om at det ikke er en sammenheng mellom eksempelvis livstilfredshet og land. P-verdien kan aldri bli større enn 1,00 (100%) og aldri mindre enn 0,00 (0%). Ved en p-verdi på 0,05 som er det mest vanlige, er det fem prosent sjanse for at resultatet i en utvalg ikke stemmer i populasjonen (og man er dermed sikker på at resultatene stemmer. At en sammenheng er signifikant, er en forutsetning for å kunne generalisere fra utvalget til populasjonen 7

11.

Problemstilling

Utgangspunktet for en analyse er en problemstilling, det vil si presist spørsmål som analysen skal besvare – en analyse uten problemstilling er ingen analyse. Problemstillingen må være klar og tydelig, og det samme gjelder begrepene og forutsetningene den bygger på. Forutsetningene bør dessuten være rimelige og lede frem til originale spørsmål, noe som ikke betyr at det må stilles spørsmål som aldri før har vært stilt, men at svaret på spørsmålet ikke bør være åpenbart. En problemstilling kan formuleres slik: Hvorfor varierer størrelsen på den offentlige sektor mellom industriland? Problemstillingen levner ingen tvil om hva (størrelsen på den offentlige sektor) eller hvem (industrilandene) som skal forklares. 12.

Standardisert koeffisient/Betakoeffisient

En betakoeffisient (eller standardisert regresjonskoeffisient) uttrykker den gjennomsnittlige endringen i standardavviket til den avhengige variabelen som følge av én enhets endring i standardavviket til forklaringsvariabelen når andre forklaringsvariabler holdes konstant. Beta vil normalt (så lenge korrelasjonen mellom forklaringsvariablene ikke er for sterk) variere mellom -1 og +1. Jo nærmere + eller – 1, desto mer betydningsfull er effekten. En ustandardisert koeffisient og en standardisert koeffisient har alltid samme fortegn. Konstantleddet faller ut i selve standardiseringsprosessen. 13.

Standardavvik

Gjennomsnittet er ikke nødvendigvis den vesentlige egenskapen ved en variabel. Det sentrale er ikke alltid like sentralt, og spørsmålet er ikke bare hva som er typisk, men også hvor typisk det typiske egentlig er. Standardavviket sier noe om i hvor stor grad de ulike verdiene sprer seg rundt gjennomsnittet. Veien til standardavviket går fra gjennomsnittet via variansen – med andre ord, variansen er lik summen av alle de kvadrerte avvikene fra gjennomsnittet, delt på antall enheter minus 1. Nevneren i uttrykket betegnes som frihetsgrader. I utregningen av variansen er frihetsgradene lik utvalgsstørrelsen (N) minus 1, altså N – 1. 14.

T-test

En t-test angir den statistiske signifikansen til korrelasjonskoeffisientene. Pverdien til korrelasjonskoeffisientene blir regnet ut fra t-verdien ved hjelp av en formel, og man kan forkaste nullhypotesen dersom t-verdien er større enn den kritiske verdien. I henhold til om man har laget en en-halet hypotese eller en to-halet hypotese, må man også ta stilling til at de har to forskjellige kritiske verdier på både 5% signifikansnivå og 1% 8

signifikansnivå. På 5% signifikansnivå er den kritiske verdien til en en-halet hypotese +/- 1,65 og til en to-halet hypotese er den +/- 1,96. På 1% signifikansnivå er den kritiske verdien til en en-halet hypotese +/- 2,33 og til en to-halet hypotese er den +/- 2,58. 15.

Ustandardisert koeffisient/Helningskoeffisient

En helningskoeffisients (eller ustandardisert koeffisient) oppgave er å tilkjennegi en manglende felles standard, noe som i utgangspunktet gjør koeffisienter usammenlignbare. En undersøkelse skal ikke bare identifisere de viktigste variablene, men den skal også skille ut de viktigste av de viktige variablene. Den jobben overlates til de ustandardiserte koeffisientene, forutsatt at forklaringsvariablene har samme målestokk. Det er ingenting i veien med å sammenligne de ustandardiserte koeffisientene til to eller flere dummyvariabler, da skalaen er den sammen (0-1). I de fleste tilfeller vil midlertidig de ustandardiserte koeffisientene være usammenlignbare, som nevnt over. Effekten av variabler målt i pengeverdier kan ikke sidestilles med effekten av variabler målt i prosentandeler, og helningskoeffisientene for dummyvariabler er usammenlignbare med helningskoeffisientene til rene metriske variabler. Ikke engang forklaringsvariabler med samme målestokk (for eksempel prosentandeler mellom 0-100) kan sammenlignes direkte så lenge «én enhets økning» betyr forskjellige ting for forskjellige variabler. HUSKELISTE VED MULTIVARIAT REGRESJONSANALYSE Spredning (standardavvik) Enheter (N)

Sentraltendens (gjennomsnitt)

Antall observasjoner F-test 2 Justert R

Konstantledd

Helningskoeffisient


Similar Free PDFs