Statistik A4 HT17 - Föreläsningsanteckningar + lite extra anteckningar från boken etc. PDF

Title	Statistik A4 HT17 - Föreläsningsanteckningar + lite extra anteckningar från boken etc.
Author	Johanna Ljung
Course	Grundläggande Statistik A4
Institution	Uppsala Universitet
Pages	182
File Size	18.7 MB
File Type	PDF
Total Downloads	59
Total Views	380

Preview

CLICK TO PREVIEW PDF

Summary

Anteckningar Statistik A4 HTJohanna LjungDeskriptiv Statistik, kapitel 1-2.Kapitel Vad är Statistik?- Statistik i ordets moderna betydelse (statistiska metoder) handlar om hur man tarfram statistik i ordets äldsta betydelse (statistiska uppgifter).- Sverige har haft en obruten, löpande befolkningsst...

Description

Statistik A4 HT 17

Anteckningar Statistik A4 HT17 Johanna Ljung

!

1 av 182

Statistik A4 HT 17

Deskriptiv Statistik, kapitel 1-2. Kapitel.1 Vad är Statistik? "

- Statistik i ordets moderna betydelse (statistiska metoder) handlar om hur man tar fram statistik i ordets äldsta betydelse (statistiska uppgifter).#

STATISTIK

Statistiska metoder

Statistiska uppgifter

- Sverige har haft en obruten, löpande befolkningsstatistik sedan 1759." - Är den oﬃciella statistiken så objektiv som lagtexten anger att den ska vara?" - Statistikproduktion är begränsad till kvantitativt mätbara företeelser. " - Statistiken om samhällets olika områden kan aldrig vara komplett. (Urval)" - Oavsett kan vi göra bedömningen att statistik är nödvändig i ett rad olika sammanhang. "

• Statistiska undersökningar - mål och medel En statistisk undersökning klassiﬁeras efter det mål (syfte) en har eller det medel (metod) en använder."

- Mål: Skilj mellan beskrivande och analytiska undersökningar. " - Medel: Skilj mellan experimentella och icke-experimentella undersökningar. " - Herman Wolds ﬂaggtablå (förstår ej riktigt) "

• Beskrivande och analytiska undersökningar! Alla statistiska undersökningar innehåller en deskriptiv (beskrivande) del, och är för många även huvudsyftet.

- Exempel: Folkräkning, partisympatiundersökning, statistisk kvalitetskontroll, hälso- och arbetsmiljöundersökning. "

2 av 182

Statistik A4 HT 17

En analytisk undersökning innehåller ofta någon form av hypotesprövning. "

- Exempel på frågeställningar: - Har andelen moderater i väljarkåren ökat under den senaste månaden? " - Ger ett nytt läkemedel ett signiﬁkant - eller statistiskt påvisbart - bättre resultat än ett visst äldre läkemedel? "

- Är den genomsnittliga viktminskningen med en viss bantningsmetod signiﬁkant större än tre kilo under en fyraveckorsperiod? " Att kartlägga och förklara samband är ett annat vanligt syfte med en analytisk undersökning. Orskan och verkan är alltså naturliga begrepp vid denna typ av undersökningar. "

- Exempel på frågeställningar: - Hur påverkades försäljningen av den genomförda annonskampanjen? " - Vilket samband ﬁnns det mellan förekomsten av belastningsbesvär och omfattningen av bildskärmsarbete? "

- Vilka är orsakerna till att våldsbrotten ökar? "

Allt detta är exempel på frågeställningar som man försöker besvara med hjälp av multivariat statistisk analys. "

- Multivariat = Innebär att man analyserar många orsaker samtidigt. " En analytisk undersökning innehåller alltid även deskriptiva moment pga innan du kan förklara sambandet mellan förekomsten av belastningsbesvär och omfattningen av bildskärmsarbete måste man beskriva förekomsten av belastningsbesvär och omfattningen av bildskärmsarbete. "

- Demograﬁsk undersökning —> innebär en beskrivning av den befolkning man studerar —> Gäller att på ett intelligent sätt uppskatta antalet födda, döda, inoch utﬂyttade i framtiden. —> Med dem uppgifterna som underlag kan man skapa en befolkningsprojektion eller en framskrivning av befolkningen. Sådana befolkningsprognoser görs för hela länder men även för mindre områden som t.ex. kommuner. "

3 av 182

Statistik A4 HT 17

- En prognos innehåller både beskrivande och analytiska inslag. För att prognoserna ska bli realistiska krävs det att man tar hänsyn till de olika faktorer som påverkar observationerna i en tidsserie, inte bara till utvecklingen i stort (trenden) utan kanske också till den säsongsvariation som kan ﬁnnas under olika kvartal. "

• Experimentella och icke-experimentella undersökningar. En experimentell undersökning har följande kännetecken "

4 av 182

Statistik A4 HT 17

Föreläsning 2-6, deskriptiv statistik. " Grundbegrepp:

- Population (N st), alla element (individer, föremål) som har en viss uppsättning deﬁnierade egenskaper gemensamt."

- Urvalsram (population frame), register, förteckning." - Totalundersökning (population census) (N st) - Stickprovsundersökning (n st, där n < N). En delmängd, (sample) ur populationen undersöks. "

- OSU, obundet slumpmässigt urval (simple random sample)"

Beteckningar:

- Den ”stora” populationen = N st - Ett urval från N = n —> Ett stickprov/sample där n 5 mätvärden, t.ex. x1, x2, x3, x4, x5 som motsvarar olika längder" - Summatecknet, Σ —> Σxi = summera alla observationer "

- Statistisk inferens, slutstaser om populationen utifrån ett stickprov"

5 av 182

Statistik A4 HT 17

- Parameter, statistics (stickprovskaraktäristiska) - Mätinstrument, (frågeformulär, måttband, våg etc.) - Mätresultaten ska ha hög validitet samt hög reliabilitet

Variabeltyper: " 1. Kvalitativ variabel (kategorivariabel), icke-numeriska värden (kön, ögonfärg etc)" 2. Kvantitativ variabel, numeriska värden. " 1. Diskret variabel, endast vissa värden (ofta heltal) t.ex. antal barn. " 2. Kontinuerlig variabel, kan i princip anta alla värden inom ett intervall som t.ex. längd eller vikt. Måste avrundas. "

Datanivåer, mätnivåer, skalnivåer. Svaga

- Nominalskala, endast klassiﬁcering, klasstillhörighet, indelning i kategorier (kön, nationalitet, partitillhörighet etc)"

- Ordinalskala, klassiﬁcering + rangordning (betyg, utbildningsnivå, kursvärdering där svarande får rangordna från 1-5 (dåligt till bra) t.ex.) " Starka

- Intervall, klassiﬁcering + rangordning + ekvidistans (likstora skalsteg), (Temperatur C grader, kom ihåg att noll grader fortfarande är en temperatur till skillnad från när någon har noll barn, då ﬁnns ej några barn.) "

- Kvot/ratio, Klassiﬁcering + rangordning + ekvidistans + absolut nollpunkt (kvoter relevanta), (lön, antal barn, vikt, längd). Vi kan m.h.a kunskapen att någon har ett barn och någon annan två barn säga att första har 1/2 så många som den andra. "

6 av 182

Statistik A4 HT 17

Variabeltyper och deras datanivåer

- Kvalitativa " - Nominalskala" - Kvantitativa - Ordinalskala" - Intervallskala" - Kvotskala" - Notera: De fyra vanliga räknesätten, + - x /, kräver data på intervall/kvotnivå." Enkät (ﬁktiv), datanivåer. 1. Var är du född? —> Nominalskala = ej m.värde." (1 = Uppland, 2 = Närke, 3 = Sörmland, 4 = Västmanland, 5 = annat) "

2. Vad tycker du om statistik? —> Ordinalskala = ej likstora skalsteg> ej m.värde." (0 = trist, 1 = OK, 2 = roligt, 3 = toppen) "

3. Vilken är den skönaste utomhus-temp.? —> Intervallskala = 0 fortf. en temp. (Svara i C grader) "

4. Hur många barn har du? —> Kvotskala = relevant att prata om ratio/kvoter. Datanivåer vid kategorisering 5. Ange ålder (år): ___ —> Kvotskala 6. Ange ålder (år) —> Ordinalskala ( pga ej likstora skalsteg) " A) 20-29" B) 30-39" C) 40-49" D) 50+"

7 av 182

Statistik A4 HT 17

Frekvenstabell: Kategorivariabler Kvalitativa variabler kallas ofta även för kategorivariabler. För dessa nominalvariabler skapar vi en frekvenstabell på följande sätt. " 1. Bilda en kolumn där du för den aktuella variabeln (x) anger samtliga variabelvärden. Ofta ﬁnns det en naturlig ordning för värdena. # (Variabel = partisympati: vänster - höger) " 2. Till höger om denna konstrueras en ny kolumn där frekvensen (f) (x antal gånger de olika värdena förekommer) anges för vart och ett av variabelvärdena. " 3. Till detta anges de relativa frekvenserna ( f/n = %) (n = antal observationer)

Sektordiagram: cirkeldiagram (rektangeldiagram, 100%-diagram)

- Hela cirkeln/rektangeln representerar totalen. " - Varje värde representeras av en cirkelsektor vars area motsvarar frekvensen. " Stapeldiagram

- Stående eller liggande staplar där höjden (längden) på staplarna är proportionella mot frekvensen. "

- Ordning: alfabetisk, efter frekvensstorlek, kvalitativ ordning, geograﬁsk ordning, kronologisk nummerordning. "

- En stympad axel gör att skillnader ser större ut än de egentligen är. (Tänk på)"

8 av 182

Statistik A4 HT 17

Felaktiga proportioner

- I ett stapeldiagram (och senare även stolpdiagram) är det enbart höjden av staplarna (eller stolparna) som ska representera respektive frekvenser. "

- Dvs. Tänk på att bredden på staplarna/stolparna måste vara samma på samtliga staplar/stolpar oavsett dess höjd. "

Korstabeller:

- Simultan frekvenstabell för två (eller ﬂera) kategorivariabler. " - I en enkätundersökning kan vi studera de båda variablerna ”kön” och ”inställning till EMU” samtidigt i en korstabell."

- Den verkliga poängen med en korstabell är dock att vi kan få en simultan (gemensam) frekvenstabell. Denna kan användas för att undersöka om det ﬁnns något samband mellan variablerna ”Kön” och ”Inställning till EMU”."

- En korstabell kan åskådliggöras graﬁskt med ett stapeldiagram där staplarna på något sätt delas upp. "

- 1. Bestämhuvudvariabel. Är vi intresserad av att se EMU-kategorifördelningen inom resp. Kön eller könsfördelningen inom de olika EMU-kategorierna? "

- 2. Ska jämförelsen göras med absoluta eller relativa frekvenser. Relativa (procentuella) jämförelser kan vara bättre då det är stora skillnader i frekvens mellan de olika kategorierna för huvudvariabeln. "

- 3. Hur ska uppdelningen av staplarna göras? Ska de staplas eller grupperas? " 9 av 182

Statistik A4 HT 17

Diagramtyper Kvalitativa variabler

- Cirkeldiagram" - Stapeldiagram " Kvantitativa, diskreta

- Stolpdiagram (frekvens)" - Trappstegskurva (kum.frekvens) " Klassindelade variabler

- Histogram (frekvens) " - Summapolygon (kum.frekvens) " Exempel, kvantitativ variabel, diskret, få variabelvärden. Antag att vi är intresserade av att studera antal barn i en viss typ av familj/hushåll. " Population: familjer " Variabel: antal barn " Beteckningar: " x = variabelnamn (värde) " f = frekvens " F = kumulerad frekvens " n = antal observationer "

Frekvensfördelningen för diskreta variabler (som inte kan anta alltför många värden) beskrivs oftast via ett stolpdiagram."

- Höjden på stolparna är proportionella mot frekvensen. "

10 av 182

Statistik A4 HT 17

Att åskådliggöra kumulativa frekvenser, trappstegsdiagram

- Vi kan beskriva de kumulativa frekvenserna via ett trappstegsdiagram. "

- Trappstegsdiagram utgår från motsvarande stolpdigaram, en stolpe ska i höjdled börja där föregående slutade. "

- ”Trappstegen” får man sedan genom att binda samma toppen av en stolpe med nederkanten av nästkommande stolpe."

Ex. klassindelad variabel

- Då man studerar en kontinuerlig variabel, eller en diskret variabel som kan anta många värden blir en vanlig frekvenstabell svåröverskådlig. "

- Antag att vi i en läkemedelsstudie vill sammanställa information rörande en grupp patienter. Bl.a. ska man skapa en frekvenstabell över patienternas vikt. "

- Frekvenstabellen blir svåröverskådlig med alla variabler, lös det enkelt med klassindelning:"

- Gör klassindelningen av datamaterialet utifrån variabelvärdenas storlek: viktklasser 50-59 kg, 60-69 kg osv. "

- Konstruera en frekvenstabell på vanligt sätt där klasserna betraktas som variabelvärden. "

- Klasserna får inte överlappa. " - Använda 5-15 klasser (8-12 enl. Praktisk statistik) " - Försök använda en naturlig klassindelning, jämna femtal eller tiotal t.ex." Frekvenstabellen kan då se ut som följande: "

Klassens undre och övre värde kallas för klassgränser ."

- Skillnaden mellan gränserna kallas för klassbredden " - Värdet mitt emellan gränserna kallas för klassmitten. " - En klass med två klassgränser sägs vara sluten. " - Saknas en klassgräns sägs den vara öppen. !

11 av 182

Statistik A4 HT 17

Klassindelning

- Klasserna i ovan exempel anges som 50-59, 60-69, 70-79 osv… " - Innebörden av dessa klasser beror på vilken variabel som studeras." Avrundningsmetoden Ger klassgränserna 49.5-59.5, 59.5-69.5, 60.5-79.5 osv…" Klassmitterna blir 54.5, 64.5, 74.5 osv… " Trunkeringsmetoden Ger klassgränserna 50-60, 60-70, 70-80 osv…" Klassmitterna blir 55, 65, 75 osv… "

- Trunkering vid ålder och avrundning för övriga variabler. "

Histogram: Lika klassbredder Frekvensfördelningen illustreras med histogram, där ytan är proportionell mot frekvensen. Ålder är en kontinuerlig variabel, vilket bör framgå av diagrammet."

12 av 182

Statistik A4 HT 17

Histogram: Olika klassbredder Antag ni att vi ska beskriva åldersfördelningen på en bussresa. Utifrån frekvenstabeller ser vi att klasserna inte är lika breda. I sådana situationer måste man vara försiktig så att histogrammet inte ger en felaktig bild av materialet. " " Histogrammet blir missvisande eftersom det är en rektangels höjd och inte dess area som representerar aktuell klassfrekvens. "

Hur man ska göra: 1. Lägg till en kolumn i frekvenstabellen, ge den rubriken ”frekvenstäthet” (frekvens per klassbredd, f/w), (ev. Multiplicerat med valfri konstant, lämpligen den vanligaste klassbredden). I vårt exempel ger denna kolumn det genomsnittliga antalet bussresenärer per årskull inom varje åldersklass. " 2. Konstruera histogrammet på så sätt att rektangelhöjderna motsvaras av värdena från frekvenstäthet." 3. Den uppsatta skalan på y-axeln är nu inte korrekt varför denna tas bort. Ange istället klassfrekvenserna ovanför (eller inuti) respektive histogramrektangel."

- Frekvenstäthet (f/w) används för att ge höjden av respektive rektangel. "

- Som avslutning tar vi bort hjälpaxeln och anger istället de verkliga frekvenserna över/inuti respektive histogramrektangel.!

13 av 182

Statistik A4 HT 17

Kumulativa frekvenser, summapolygon (Ogive) Vi kan beskriva de kumulativa frekvenserna (F), via ett summapolygon (Ogive). " 1. Ange punkter för kumulativ frekvens för alla klassgränser (kom ihåg trunkeringsmetoden)# Den undre klassgränsen i den första klassen anges med 0. Kumulativ frekvens anges i slutet av varje klass. " 2. Förbind punkterna i diagrammet med räta linjer. "

EDA, explorativ dataanalys

- Stam-blad-diagram Är ett mellanting mellan frekvenstabell och histogram. Det har histogrammet överskådlighet plus den information om enskilda observationer som går förlorad i histogrammets rektanglar. " Ex: 97, 110, 105, 96, 109, 95, 108, 117, 107, 110, 82, 99. " Varje observation delas i två delar: "

- Bladet, som här består av entalssiﬀran. " - Stammen, som består av övriga siﬀror." Talet 97 ger exempelvis stamdelen 9 och bladet 7, talet 110 ger stamdelen 11 och bladet 0 och så vidare"

14 av 182

Statistik A4 HT 17

(Sorterat: 82 95 96 97 99 105 107 108 109 110 110 117 )" Stammen: Efter att entalssiﬀran tagit bort ställs de återstående siﬀrorna i storleksordning i en lodrät rad. Detta representerar således våra klasser."

Bladen: För varje rad i stammen anges nu bladen (dvs entalssiﬀrorna) i storleksordning. Detta kommer att ge stambladdiagrammet intrycket av att vara ett liggande histogram. "

Djupet: är en form av kumulerade frekvenser där man både från den lägsta och den högsta klassen summerar frekvenser tills man kommer till den klass där den mittersta observationen beﬁnner sig. För denna mittenklass anger man den faktiska frekvensen inom parentes. "

Sammanfattande mått Lägesmått: Ett för att ange det genomsnittliga värdet eller ”mittpunkten” " Spridningsmått: Ett mått för att mäta hur stor spridning eller variation det är i den aktuella variabeln. "

Jämför de två åldersfördelningarna. Samma genomsnittsvärde men olika spridning. (Diagrammet kallas ”dot-plot”)"

Rådata vs klassindelat material Rådata: Om vi har tillgång till de exakta värdena för samtliga observationer i materialet säger vi att vi har tillgång till rådatan. Om så är fallet kan vi utföra alla beräkningar. " Klassindelat material: Om vi enbart har tillgång till datamaterialet utifrån information i en frekvenstabell med klassindelning (eller histogram) känner vi inte till observationernas exakta värden. Om så är fallet kommer våra beräkningar enbart att bli uppskattningar." 15 av 182

Statistik A4 HT 17

Tre vanliga lägesmått: centralmått" Det ﬁnns olika sätt att bestämma de genomsnittliga värdet för en variabel. Vilket lägesmått som är mest lämpligt är beroende av datanivå, vilken typ av variabel man studerar och syftet med beskrivningen. "

- Typvärde, T (mode, Mo): Det vanligaste värdet, dvs. Det värdet/kategori som har den högsta frekvensen. "

- Median: Det mittersta värdet i ett ordnat material. " - Medelvärde (aritmetriskt medelvärde) (mean, average): Summan av alla observationerna dividerat med antalet. "

Typvärde Vi betraktar ett litet datamaterial där vi hos endast fem familjer studerar variabeln ”antal barn”. "

- Typvärdet är det vanligaste värde, dvs det värde/kategori som har den högsta frekvensen. "

- Då två av familjerna har ett barn och inget annat värde förekommer mer än en gång blir typvärdet således 1."

- T = 1"

Typvärdet for klassindelat material: Vid klassindelat material är typvärdet i klassmitten i den frekvenstätaste klassen. Åldersfördelningen för studenterna på en kurs beskrivs i tabellen till vänster. " Viktigt att tänka på att klassbredderna skiljer sig från hur åldern är fördelad. Även om det står ”19-20” så sträcker sig den klassbredden till den dag då man fyller 21, dvs klassbredden = 19-21."

16 av 182

Statistik A4 HT 17

Median För att beräkna medianen måste observationerna ställas i storleksordning utifrån ”antal barn” i detta fall. " Medianvärdet är det mittersta värdet efter att observationerna ordnats i storleksordning. Medianen blir alltså ett, dvs Md = 1 " Viktigt: Om antalet observationer är jämnt, beräknas medianen som medelvärdet av de två mittersta. " Formell deﬁnition: Medianen är värdet på observations med ordningsnummer (n+1)/2 då materialet rangordnats från minsta till största. " Udda antal observationer —> mittenobservationen " Jämnt antal observationer —> Medelvärdet av de två mittersta observationerna. " Ursprungligt exempel: Eftersom n = 5 följer att medianen efter rangordning av observationerna är värdet på observation nr (5+1)/2=3" Modiﬁerat exempel: Eftersom n = 6 följer att medianen, efter rangordning av observationerna, är värdet på nr. (6+1)/2=3.5. Medianen är alltså mitt emellan värdena för observation 3 och 4. —> dvs x3+x4/2"

Median: Utnyttja frekvenstabellen Om materialet är sammanställt i en frekvenstabell kan vi utnyttja det faktum att observationerna redan är rangordnade." Genom att lägga till en kolumn med kumulerade frekvenser ﬁnner vi enkelt medianen. " Det är n=100 observationer varför medianen är värdet på observation (100+1/2=50.5), dvs mitt emellan värdena för observation 50 och 51. " De kumulerade frekvenserna ger att dessa båda mittenobservationer/familjer har ett barn. Medianen blir därmed 1. "

17 av 182

Statistik A4 HT 17

Median: Klassindelat material Vid klassindelat material är medianen värdet på observation n/2 istället för (n+1)/2" Sök observation med ordningsnummer n/2, dvs observations 122/2=61. " Använd de kumulerade frekvenserna för att ﬁnna medianklassen. Vi ser att denna observation ligger i klassen 70-79. " Under förutsättning att individerna är jämt utspridda i klasserna kan medianen uppskattas via interpolering. " Interpolation innebär att vi letar upp var ...