Anteckningar Moment 1 PDF

Title	Anteckningar Moment 1
Author	Melina Åhlenius
Course	Statistik A1
Institution	Umeå Universitet
Pages	13
File Size	612.4 KB
File Type	PDF
Total Downloads	11
Total Views	152

Preview

CLICK TO PREVIEW PDF

Summary

Kompletta föreläsningsanteckningar...

Description

Introduktion Statistik 2016-08-29 Moment 1 (7hp) Moment 2 (2,5hp) Moment 3 (4hp) Moment 4 (1,5hp)

Tenta Grupparbete (skriftlig rapport/seminarium) Tenta Grupparbete (skriftlig rapport/seminarium)

Statistik är en formell vetenskap Statistikteori är en viktig teori för hur observationer samlas in och analyseras och hur slutsatser kan dras från givna observationer. Ytterst kan vi se statistikteorin som teorin för hur observationer kan ligga till grund för en ökad kunskap om omvärlden. Planering är viktig! Vilka data, metod för datainsamlingsmetod, bortfallshantering, analysmetod, redovisningsform

urval,

mätmetod,

mätinstrument,

Deskriptiv undersökning (beskrivande) – ansats att beskriva ett förhållande eller faktiskt händelseförlopp Förklarande undersökning – ansats att klarlägga orsakssamband och förklara varför verkligheten ser ut som den gör Prognoser – förutsägelser om framtiden Kan grundas på en deskriptiv eller (fördelsvis:) analytisk undersökning Objekt De personer, föremål, händelser eller liknande, vilkas egenskaper eller attityder man vill studera. Population En enkel definition av en (mål-)population är att det är den mängd personer, föremål eller andra objekt som man vill ha information om. • (Urvals-)ram – En urvalsram, eller kortare ram, är (i idealfallet) en lista eller förteckning över alla objekt i målpopulationen. En ram kan också vara sådant som t.ex. en karta. • Urval – Ett urval är den delmängd av populationen som vi faktiskt undersöker när vi gör en urvalsundersökning. •

Variabel – De egenskaper som kan vara olika hos olika individer i en population kallas för variabler. Våra observationer är således observationer på en eller flera variabler.

– Kvalitativa variabler (”kategorivariabler”) • Variabler där varje enhet som mäts placeras i en kategori. Exempel: Kön, ögonfärg, bilmodell. – Kvantitativa variabler • Variabler som antar numeriska värden och där beräkningar som t.ex. addition är meningsfullt. Exempel: Längd, vikt, pris.

Datainsamling Föreläsning 1, 2016-08-29 Datainsamlingen måste vara anpassad till den teori man har om problemet. Denna påverkar mätinstrumentets utformning och konstruktion.

T e o rie r o m p r o b le m o m r å d e t

T e o rie r o m d a ta a n a ly s

V e r k lig h e t

D a ta M ä t in s t r u m e n t

Experimentella undersökningar effekter av något man tillsätter studeras upprepbarhet randomisering – slumpmässig fördelning (block design = inledande gruppindelning, tex män-kvinnor) dubbelblinda försök – dolt för samtliga vilka som är kontrollgrupp Ickeexperimentella undersökningar förloppet påverkas inte (passiv observation) Experimentella studier är i regel att föredra om man vill undersöka effekten av någon förklaringsvariabel på någon responsvariabel, eftersom det med en icke-experimentell ansats kan vara svårt att särskilja effekten av förklaringsvariabeln från effekter av andra faktorer Problem vid experimentella undersökningar: Generaliserbarhet Undersökningsenheterna är inte alltid slumpmässigt utvalda ur någon väldefinierad population. Generaliseringar måste då bygga på icke-statistiska argument. Brist på realism Till exempel i simulatorer. Skulle personen reagera likadant i verkligheten.

Urvalsundersökningar Varför urvalsundersökning i stället för totalundersökning? – Billigare – Snabbare – Bättre mätning – Praktiskt omöjligt med totalundersökning då populationen är mycket stor eller oändlig – Förstörande prov – tex produkttest; testas alla kan inget säljas Urvalstyper: Bekvämlighetsurval – går inte att generalisera Frivilliga svar/försökspersoner – slutsats kan endast appliceras på just de personerna Sannolikhetsurval – går att dra slutsatser om en hel population Sannolikhetsurval Slumpmekanism För varje enhet i populationen är sannolikheten för att inkluderas i urvalet känd och större än noll Obundet slumpmässigt urval (OSU/SRS) Alla möjliga kombinationer av enheter har samma chans att bli utvalda Stratifierat urval Populationen delas in i strata (tex män och kvinnor) och ett OSU dras ur varje stratum Klusterrval (Gruppurval) Populationen delas slumpmässigt in i grupper (kluster), därefter väljs ett kluster. Ibland undersöks inte alla element inom de utvalda grupperna, utan man gör ytterligare urval inom de utvalda grupperna. Man får då ett tvåstegsurval eller, generellare, flerstegsurval. Ramen = lista på de som har möjlighet att komma med i urvalet Mätning Operationalisering – en beskrivning av hur man ska gå tillväga; mätregler definieras. Latent variabel – egenskap som ej är direkt observerbar, kan mätas genom en/flera indikatorer Indikator – observerbar (manifest) variabel som används vid mätning av en latent variabel Metoder: Bokföring (observation genom att försöksenheterna för loggbok) Direkt observation Postenkäter Telefonintervjuer Besöksintervjuer

Reliabilitet – grad av överensstämmelse mellan upprepade mätningar på samma sak Validitet – mätinstrumentet mäter vad det avser att mäta (och korrekt) Datakvalitet och felkällor

Relevans/Innehåll Syfte - Tydligt angivet syfte och användning av producerad data - Sekundärdata ska vara relevant och användbar Definitioner - Begrepp och variabler bör alltid vara definierade - Definitioner bör kontrolleras så att alla har samma - Egna definitioner kan anpassas till producentens definitioner Jämförbarhet - Ange jämförbarhet med annan statistik inom samma område - Är jämförelse möjligt? - Ändrade definitioner ska dokumenteras för att säkerställa jämförelser i framtiden Aktualitet - Ange hur aktuella uppgifterna är - Hur aktuella uppgifter behövs?

Noggrannhet Täckningsfel - Övertäckning - Urvalsramen innehåller individer som ej finns med i målpopulationen - Undertäckning - Urvalsramen saknar individer som finns med i målpopulationen - Kan ge upphov till systematiska fel (bias) Bortfallsfel - Individbortfall (objektsbortfall) – inget svar

-

Partiellt bortfall – svarsvägran på vissa frågor Kan ge stora systematiska fel

Mätfel Pga respondenten: - Okunnighet - Glömska (bortfall eller felaktiga uppgifter) - Känsliga frågor (förskönande svar) - Prestige (prestigebias) - Egenintresse – effekter av studiens resultat kan gynna personen Pga intervjuaren: - Uppträdande och uppenbarelse Pga metoden: - Olika metoder kan ge olika ärliga svar pga situationen. Pga mätinstrument: - Oklara formuleringar, definitioner, anvisningar etc. - Antalet frågor. För långa enkäter leder till större bortfall. Bearbetningsfel: Kodningsfel Stansningsfel Tabuelringsfel Urvalsfel: Uppstår när man studerar ett urval istället för hela populationen. Möjligt att uppskatta statistisk sannolikhet om urvalet gjorts korrekt.

Visualisering och Deskription Föreläsning 2, 2016-08-30 Olika typer av variabler ”kräver” olika behandling Kvalitativa variabler (”kategorivariabler”) Variabler där varje enhet som mäts placeras i en kategori. Exempel: Kön, ögonfärg, bilmodell. Kvantitativa variabler Variabler som antar numeriska värden och där beräkningar som t.ex. addition är meningsfullt. Exempel: Längd, vikt, pris. En kvantitativ variabel är antingen diskret eller kontinuerlig. Diskret: Kan endast anta ett ändligt antal värden eller kan anta ett oändlig antal värden som dock är uppräkneliga. Exempel: Antal äpplen i ett äppelträd. Kontinuerlig: Kan anta alla värden i ett intervall. Exempel: En människas längd.

Diagram

Fullständigt men kortfattat, inga onödiga linjer etc. Ska kunna förstås utan att läsa texten runt omkring. Ange:  Diagramnummer, rubrik (läggs under diagrammet), Kort anmärkning som gäller hela diagrammet  Diagram  Noter  Längre anmärkningar  Källhänvisning  Ange tydligt variabler, enheter, skalsteg och skalvärden Kvalitativa variabler Stapeldiagram (stående/liggande) – en eller flera variabler (tex jämförelser) Cirkeldiagram – tänk på färgerna Kvantitativa variabler Histogram Stam-bladdiagram Tidsseriedata Linjediagram – möjligt att se trender, cykler, variationer Samband Spridningsdiagram – varning för nonsenssamband! (ex glass och drunkningsolyckor)

Tabeller Fullständiga men kortfattade. Ska kunna läsas utan extra information från text runtomkring.       

Tabellnummer, rubrik (ovanför) Kort anmärkning som gäller hela tabellen Tabell Noter Längre anmärkningar Källhänvisning Ange enheten för respektive kolumn ovanför varje, gemensam enhet anges i rubrik

Envägsindelad frekvenstabell – en variabel och absoluta / relativa frekvenser Tvåvägsindelad frekvenstabell/korstabell – två variabler och absoluta /relativa frekvenser (används för att studera samband mellan två kvalitativa variabler) Envägsindelad kvottabell – två variabler varav en finns i tabellcellerna i form av exempelvis medelvärden.

Beskrivande måt

Fördelningen sammanfattas av ett eller ett fåtal tal Kvartiler Sammanfattas fördelat på tre tal: • första kvartilen (25 % under, 75 % över) • andra kvartilen, medianen (50 % under, 50 % över) • tredje kvartilen (75 % under, 25 % över) Five nummer summary Fördelning med hjälp av fem tal (högsta och lägsta värdet läggs till). Boxplot (lådagram) bygger på five nummer summary

Centralmåt Fördelningen sammanfattas i ett tal. Fördelningens centrum. Typvärde (kvalitativt) Medianen Medelvärdet Vilken ska användas?  Möjlighet att tolka resultatet: - Antag att vi sätter gul=1, blå=2 och röd=3. Eftersom vi har siffror kan vi beräkna typvärde, median och medelvärde. Men hur tolkar vi t.ex. medelvärdet 2,3 eller medianen 2? - Exempelvis så ”kräver” medianen rangordning, att 2 innebär mer av egenskapen än 1.  Syfte. Vad skall vi ha måttet till? (Vilket centralmått är mest beskrivande)

Spridningsmåt Ger information om fördelningens spridning. Variationsvidden (range) – skillnaden mellan största och minsta värdet Kvartilavstånd (interquartile range) – avstånd mellan första och tredje kvartilen, dvs vilket avstånd 50% av värdena ligger inom Standardavvikelse – beskriver hur mycket mätvärdena avviker från medelvärdet.

Samplingfördelningar och inferensteori (konfidensintervall) Föreläsning 4, 2016-09-06 Parametrar En parameter är en konstant som ”karakteriserar” en population eller en modell. Exempelvis en politik-undersökning, är en parameter

Till exempel: populationsmedelvärdet, populationsstandardavvikelsen

populationsproportionen,

Statistika En slumpvariabel beroende på mitt stickprov Värdet på en statistika varierar från stickprov till stcikprov. Ett numeriskt värde som beräknas med hjälp av observationerna i ett stickprov Till exempel: stickprovsmedelvärdet, stickprovsproportionen, stickprovsstandardavvikelsen Samlingfördelningar Om vi beskriver hur ett stickprovsmedelvärde varierar från stickprov till stickprov får vi en fördelning (se anteckningar). Samplingfördelning är alltså en fördelning för en statistika. PP-exempel (en tärning) Histogrammet visar chansen att få de olika stickprovskombinationerna och därav olika stickprovsmedelvärden. Det är alltså inte så stor sannolikhet att kasta två 1:or vilket skulle leda till att man beräknar medelvärdet till 1. Observera att fördelningen för stickprovsmedelvärdet liknar en normalfördelning trots att fördelningen i populationen var likformig (alla värden lika vanliga). Fördelning för stickprovsmedelvärdet  Om man samplar från en normalfördelning är stickprovsmedelvärdet alltid normalfördelat oavsett stickprovsstorlek.  Om vi samplar från någon annan fördelning är stickprovsmedelvärdet approximativt normalfördelat om stickprovet är ”stort”. (=Den centrala gränsvärdessatsen, the central limit theorem) Stickprovsmedelvärdets medelvärde  Medelvärdet alla möjliga stickprovsmedelvärden är detsamma som populationsmedelvärdet = unibiased (väntevärdesriktig) estimator  Man kommer att missa – men det är osystematiskt huruvida man över- eller underskattar och i genomsnitt blir det rätt. Stickprovsmedelvärdets standardavvikelse  Spridningen är mindre än i populationen  Standardavvikelsen för stickprovsmedelvärdet är lika med standardavvikelsen i populationen dividerat med kvadratroten ur stickprovsstorleken.  Detta innebär att spridningen blir mindre så stickprovets storlek ökar. (överkurs) Ju större sampel vi tar desto större chans har vi att få ett stickprovsmedelvärde nära populationsmedelvärdet.

Estimation Exempel: Det enda vi inte vet är genomsnittsintelligensen. 1,96 standardavvikelser Inom dessa ligger 95% av alla värden Estimation av et populationsmedelvärde då standardavvikelsen (sigma) är känd  Om samplet är tillräckligt stort (25-30) är stickprovsmedelvärdet åtminstone approximativt normalfördelat, oavsett fördelning i populationen.  Är populationen normalfördelad är stickprovsmedelvärdet normalfördelat oavsett stickprovsstorlek.

Estimation av ett populationsmedelvärde då standardavvikelsen (sigma) är okänd

X - my / sigma = z

Kvalitativa variabler och chitvåtest Föreläsning 6, 2016-09-13 Hypoteserna kan skrivas i ord. Teststatistika (chi2):

Observera att ju större skillnaden är mellan observerat antal och det förväntade antalet då nollhypotesen är sann, desto större blir värdet på statistikan. Som alltid tittar vi alltså på avståndet mellan nollhypotesen och det vi ser i vårt stickprov (”verkligheten”). Är avståndet ”stort” så ska nollhypotesen förkastas. Är avståndet ”litet” kan vi inte utesluta att skillnaden mellan nollhypotes och ”verklighet” beror på ”slumpen”. Stora värden på teststatistikan tyder på att H0 är falsk. Förväntat och observerat antal bör vara ungefär lika stora om H0 är sann. Chi2-fördelningen: (antal rader – 1) x (antalet kolumner -1) Obs! Chi2-fördelningen är inte exakt utan en approximation

Estimation och hypotesprövning populationsvärden Föreläsning 7, 2016-09-16

av

skillnaden mellan

två

Om båda stickprovsmedelvärden är normalfördelade är skillnaden mellan dem normalfördelad. Förutsättning: normalfördelad population eller stort stickprov

Hypotesprövning för skillnaden mellan två populationsmedelvärden Nollhypotes: 1=2 Teststatistika: T Fördelning: T-fördelning med (det mindre av (n-1) och (n-1) två populationer ger ju två olika n) frihetsgrader OM sigma är lika för båda populationerna

Inferens: Populationsproportioner

Stickprovsproportionen Ej normalfördelad. MEN vid ett stort stickprov kan vi hävda att stickprovsproportionen är ungefär normalfördelad P = Populationsmedelvärdet Standardavvikelsen i populationen:

P med tak – stickprovsproportionen (istället för x bar då stickprovsmedelvärdet är en proportion)

Exempel: P= 0,30 N = 2000

Konfidensintervall för p

OBS! Detta är ett specialfall

Hypotesprövning

Se exempel 8.4 i boken.

Stickprovsdimensionering vid skatning av en populationsproportion

Vi behöver ett planeringsvärde för p. Om vi inte har ett p kan vi använda p = 0.5, eftersom att variansen aldrig är större än 0,5 (fifty fifty). Den enda risken är att man får ett för stort stickprov.

Uppskatning av en skillnad mellan två populationsproportioner Teststatistika: z Fördelning: approximativt normalfördelad...