Title | Forelesning 4 – Deskriptiv statistikk |
---|---|
Course | Psykologiens metodologi |
Institution | Norges teknisk-naturvitenskapelige universitet |
Pages | 5 |
File Size | 189.2 KB |
File Type | |
Total Downloads | 70 |
Total Views | 156 |
Download Forelesning 4 – Deskriptiv statistikk PDF
Forelesning 4 – Deskriptiv statistikk o Deskriptiv statistikk = oppsummerer datasettet o Første steg i kvantitativ analyse – en rekke teknikker som hjelper oss å oppsummere dataene. o Utregninger vi kan gjøre for å beskrive datasettet vårt o Også kalt: sammenstillende/oppsummerende statistikk o Målenivå har betydning for hva man kan regne ut innen deskriptiv statistikk o Sentraltendens Hovedtype deskriptiv statistikk Hva er det vanligste i gruppen vi ser på? Forenkle resultatene Statistisk mål som identifiserer en enkeltskåre som definerer sentrum for en fordeling Identifiserer verdien som er mest typisk/mest representativ for hele gruppen Gjennomsnitt, median, modus (mode) Gjennomsnitt ( ) – aritmetisk snitt ´ representerer gjennomsnitt for et utvalg, er for o X en populasjon. o Nøyaktig verdi på kontinuerlig skala o Mest følsomme målet for sentraltendens o Påvirkes av ”utliggere” (ekstreme verdier) o Forutsetter intervall eller rationivå o ∑ betyr ”legg sammen alle verdiene” Median o Ikke så sensitiv for ekstreme verdier o Midterste verdi, ikke hensyn til alle verdier o Benyttes til variabler på ordinalnivå o Kan være et lite representativt mål ved for få
verdier i datasettet o Ved partall: ta snittet av de to sentrale verdiene (altså de to miderste verdiene delt på 2) o Hvordan finne medianposisjon: (N+1)/2 (der N er antall skåre i datasettet)
Mode/modus o Hvilken kategori som har hyppigst frekvens o Den verdien som forekommer mest i settet o Dersom det fins to moduser er settet bimodalt o Ikke påvirket av ekstreme verdier o Ikke basert på alle verdiene mindre sensitiv o Ikke passende for små utvalg, og utvalg der variabler opptrer bare en gang o Benyttes på nominalnivå o Informativt ved U-formet fordeling
o Spredning (Variation/dispersion) Hovedtype deskriptiv statistikk Mål på spredning indikasjon på hvor mye variasjon det er i skåre Range: avstand fra laveste til høyeste Påvirket av ”uteliggere” Variasjonsbredde Enkleste mål for spredning Avstanden mellom høyeste og laveste verdien i et tallsett (Høyeste –minus- laveste) Inkludererer ekstreme verdier – gir skjevhet Ikke representativt for hvordan verdiene mellom ytterpunktene er fordelt Varians: S2/ σ2 Summen av kvadrerte avvik alltid positiv 2 Σ ( X − X´ ) varians= N For å generalisere slik at formelen gjelder en hel populasjon må nevneren være N-1. Dette er frihetsgrader = antall avvik fra snittet. Standardavvik: S, SD, σ OBS! Ikke bland sammen med standardskåre Finner SD ved å ta roten av variansen S representerer standardavvik for et utvalg, mens σ representerer standardavvik for en populasjon (generaliser) Forteller om hva som er den mest typiske verdien å ligge unna snittet Vanligst å ha ”N-1” i nevneren, som er den generaliserte formelen. BRUK N-1 fordi vi alltid bruker et lite utvalg for å si noe om en større populasjon. Gjennomsnitt gir lite info dersom man ikke vet noe om SD. Kan sammenligne med andre skårer hvor typisk det er å ligge så og så langt fra et snitt. Knyttet til normalfordeling
Kalkuleres på bakgrunn av alle observasjoner
o Slutningsstatistikk (inferential) = estimering av egenskaper til populasjonen. Hypotesetesting. o Beskrive individuelle variabler o Trekke konklusjoner om sannsynligheter angående funnene o Må ha deskriptiv statistikk (tall, verdier...) først o T-tester o Korrelasjon .r
o Kji-kvadrat (x2) o ANOVA (F-test) o Bruker deskriptiv statistikk i slutningsstatistikk o Fordelinger o Kontinuerlige variabler kan ha uendelig antall verdier ofte tilnærmet normalfordelt o Positiv skjevhet: eks mange lave verdier på angst/depresjon variabler, kurven skjøvet til venstre. o Gausskurve
o Kjennetegn på perfekt normalfordeling o Median, mode og gjennomsnitt er alltid samme verdi o Symmetrisk rundt et midtpunkt o Asymptotisk : halene vil aldri helt treffe 0/x-aksen o Finner gjennomsnitt ved høyeste punkt i grafen o Ca 68% vil befinne seg innenfor +/- 1SD o Formen på fordelingen avgjøres av gjennomsnitt og standardavvik o Jo flatere og videre kurven er jo større SD o Gjennomsnitt bestemmer hvor man finner toppen og halene o Z-fordeling o Z-skåre er ”antall SD fra gjennomsnittet” o Sannsynlighetsfordeling hvor sannsynlig å få høyere eller lavere verdi enn en viss gitt verdi. o Hvor mange prosent av arealet i kurven befinner seg over/under/mellom gitte Z-verdier. Info om hvordan en observasjon er plassert i forhold til de andre. o Teste hypoteser om enkeltverdier. o Standardskårer/Z-skårer o Sammenligne ulike fordelinger o Ulike personer på en test, eller ulike tester på en person
o Undersøke om en skåre er signifikant forskjellig fra gjennomsnittet
o Ca 68% faller inn under +/- 1 z-skåre o Z = +/- 1.96 og +/- 2.58 representerer verdiene som inkluderer 95% og 99% av observasjonene, 0.5 og 0.1 signifikansnivå. o Deskriptiv statistikk for variablene etter at de er standardisert o Transformering til Z-skårer o Standardisering (transformering) = alle verdiene på variabelen regnes om til Zskårer o Gjennomsnitt og SD til en variabel (eks. Alder) etter at den har blitt standardisert o Hva vil verdiene være og hvorfor? o Gjennomsnittet vil være 0 og SD vil være 1. o Utvalgsfordeling og standardfeil o Utvalgsfordeling = hypotetisk fordeling over gjennomsnittsskårer o Estimere hvor mye variasjon vi ville fått i utvalgsfordelingen ved å bruke viktig informasjon om vårt utvalg o Standardavvik o Størrelsen på utvalget o Standardfeil (SE) o Estimat på variasjon i en utvalgsfordeling o Standardavviket til utvalgsfordelingen
o Hypotesetesting o Ønsker svar på forskningsspørsmål: formulerer hypoteser som beskriver alle mulige utfall o Nullhypotese: ”det finnes ingen sammenheng eller forskjell”. Trenger ikke oppgi denne i obligatorisk oppgave, bare hypotesen. o Det er alltid nullhypotesen som testes statistisk. Kan forkaste denne dersom vi finner at det er svært lite sannsynlig at resultatene vi har oppnådd bare skyldes tilfeldigheter. o ”Hvor sannsynlig er det å få denne verdien, gitt at H0 er sann?” o Signifikansnivå: o hvor mye tilfeldigheter vi kan akseptere o .05 sig.nivå: tillater 5% sjanse for at resultatene våre skyldes tilfeldigheter o .01 sig.nivå: tillater kun 1% sjanse for at resultatene skyldes tilfeldigheter o P-verdi o Sannsynlighetsverdi o Spesifiserer nøyaktig hvor sannsynlig det er å få et resultat gitt at nullhypotesen er sann o P...