Forelesning 4 – Deskriptiv statistikk PDF

Title	Forelesning 4 – Deskriptiv statistikk
Course	Psykologiens metodologi
Institution	Norges teknisk-naturvitenskapelige universitet
Pages	5
File Size	189.2 KB
File Type	PDF
Total Downloads	70
Total Views	156

Preview

CLICK TO PREVIEW PDF

Summary

Download Forelesning 4 – Deskriptiv statistikk PDF

Description

Forelesning 4 – Deskriptiv statistikk o Deskriptiv statistikk = oppsummerer datasettet o Første steg i kvantitativ analyse – en rekke teknikker som hjelper oss å oppsummere dataene. o Utregninger vi kan gjøre for å beskrive datasettet vårt o Også kalt: sammenstillende/oppsummerende statistikk o Målenivå har betydning for hva man kan regne ut innen deskriptiv statistikk o Sentraltendens Hovedtype deskriptiv statistikk  Hva er det vanligste i gruppen vi ser på? Forenkle resultatene  Statistisk mål som identifiserer en enkeltskåre som definerer sentrum for en fordeling  Identifiserer verdien som er mest typisk/mest representativ for hele gruppen  Gjennomsnitt, median, modus (mode)  Gjennomsnitt ( ) – aritmetisk snitt ´ representerer gjennomsnitt for et utvalg,  er for o X en populasjon. o Nøyaktig verdi på kontinuerlig skala o Mest følsomme målet for sentraltendens o Påvirkes av ”utliggere” (ekstreme verdier) o Forutsetter intervall eller rationivå o ∑ betyr ”legg sammen alle verdiene”  Median o Ikke så sensitiv for ekstreme verdier o Midterste verdi, ikke hensyn til alle verdier o Benyttes til variabler på ordinalnivå o Kan være et lite representativt mål ved for få

verdier i datasettet o Ved partall: ta snittet av de to sentrale verdiene (altså de to miderste verdiene delt på 2) o Hvordan finne medianposisjon: (N+1)/2 (der N er antall skåre i datasettet) 

Mode/modus o Hvilken kategori som har hyppigst frekvens o Den verdien som forekommer mest i settet o Dersom det fins to moduser er settet bimodalt o Ikke påvirket av ekstreme verdier o Ikke basert på alle verdiene  mindre sensitiv o Ikke passende for små utvalg, og utvalg der variabler opptrer bare en gang o Benyttes på nominalnivå o Informativt ved U-formet fordeling

o Spredning (Variation/dispersion) Hovedtype deskriptiv statistikk  Mål på spredning  indikasjon på hvor mye variasjon det er i skåre  Range: avstand fra laveste til høyeste  Påvirket av ”uteliggere”  Variasjonsbredde  Enkleste mål for spredning  Avstanden mellom høyeste og laveste verdien i et tallsett (Høyeste –minus- laveste)  Inkludererer ekstreme verdier – gir skjevhet  Ikke representativt for hvordan verdiene mellom ytterpunktene er fordelt  Varians: S2/ σ2  Summen av kvadrerte avvik  alltid positiv 2 Σ ( X − X´ )  varians= N  For å generalisere slik at formelen gjelder en hel populasjon må nevneren være N-1. Dette er frihetsgrader = antall avvik fra snittet.  Standardavvik: S, SD, σ  OBS! Ikke bland sammen med standardskåre  Finner SD ved å ta roten av variansen  S representerer standardavvik for et utvalg, mens σ representerer standardavvik for en populasjon (generaliser)  Forteller om hva som er den mest typiske verdien å ligge unna snittet  Vanligst å ha ”N-1” i nevneren, som er den generaliserte formelen. BRUK N-1 fordi vi alltid bruker et lite utvalg for å si noe om en større populasjon.  Gjennomsnitt gir lite info dersom man ikke vet noe om SD. Kan sammenligne med andre skårer hvor typisk det er å ligge så og så langt fra et snitt.  Knyttet til normalfordeling



Kalkuleres på bakgrunn av alle observasjoner

o Slutningsstatistikk (inferential) = estimering av egenskaper til populasjonen. Hypotesetesting. o Beskrive individuelle variabler o Trekke konklusjoner om sannsynligheter angående funnene o Må ha deskriptiv statistikk (tall, verdier...) først o T-tester o Korrelasjon .r

o Kji-kvadrat (x2) o ANOVA (F-test) o Bruker deskriptiv statistikk i slutningsstatistikk o Fordelinger o Kontinuerlige variabler kan ha uendelig antall verdier  ofte tilnærmet normalfordelt o Positiv skjevhet: eks mange lave verdier på angst/depresjon variabler, kurven skjøvet til venstre. o Gausskurve

o Kjennetegn på perfekt normalfordeling o Median, mode og gjennomsnitt er alltid samme verdi o Symmetrisk rundt et midtpunkt o Asymptotisk : halene vil aldri helt treffe 0/x-aksen o Finner gjennomsnitt ved høyeste punkt i grafen o Ca 68% vil befinne seg innenfor +/- 1SD o Formen på fordelingen avgjøres av gjennomsnitt og standardavvik o Jo flatere og videre kurven er  jo større SD o Gjennomsnitt bestemmer hvor man finner toppen og halene o Z-fordeling o Z-skåre er ”antall SD fra gjennomsnittet” o Sannsynlighetsfordeling  hvor sannsynlig å få høyere eller lavere verdi enn en viss gitt verdi. o Hvor mange prosent av arealet i kurven befinner seg over/under/mellom gitte Z-verdier. Info om hvordan en observasjon er plassert i forhold til de andre. o Teste hypoteser om enkeltverdier. o Standardskårer/Z-skårer o Sammenligne ulike fordelinger o Ulike personer på en test, eller ulike tester på en person

o Undersøke om en skåre er signifikant forskjellig fra gjennomsnittet

o Ca 68% faller inn under +/- 1 z-skåre o Z = +/- 1.96 og +/- 2.58 representerer verdiene som inkluderer 95% og 99% av observasjonene, 0.5 og 0.1 signifikansnivå. o Deskriptiv statistikk for variablene etter at de er standardisert o Transformering til Z-skårer o Standardisering (transformering) = alle verdiene på variabelen regnes om til Zskårer o Gjennomsnitt og SD til en variabel (eks. Alder) etter at den har blitt standardisert o Hva vil verdiene være og hvorfor? o Gjennomsnittet vil være 0 og SD vil være 1. o Utvalgsfordeling og standardfeil o Utvalgsfordeling = hypotetisk fordeling over gjennomsnittsskårer o Estimere hvor mye variasjon vi ville fått i utvalgsfordelingen ved å bruke viktig informasjon om vårt utvalg o Standardavvik o Størrelsen på utvalget o Standardfeil (SE) o Estimat på variasjon i en utvalgsfordeling o Standardavviket til utvalgsfordelingen

o Hypotesetesting o Ønsker svar på forskningsspørsmål: formulerer hypoteser som beskriver alle mulige utfall o Nullhypotese: ”det finnes ingen sammenheng eller forskjell”. Trenger ikke oppgi denne i obligatorisk oppgave, bare hypotesen. o Det er alltid nullhypotesen som testes statistisk. Kan forkaste denne dersom vi finner at det er svært lite sannsynlig at resultatene vi har oppnådd bare skyldes tilfeldigheter. o ”Hvor sannsynlig er det å få denne verdien, gitt at H0 er sann?” o Signifikansnivå: o hvor mye tilfeldigheter vi kan akseptere o .05 sig.nivå: tillater 5% sjanse for at resultatene våre skyldes tilfeldigheter o .01 sig.nivå: tillater kun 1% sjanse for at resultatene skyldes tilfeldigheter o P-verdi o Sannsynlighetsverdi o Spesifiserer nøyaktig hvor sannsynlig det er å få et resultat gitt at nullhypotesen er sann o P...