Hjælp til eksamen Statistik PDF

Title Hjælp til eksamen Statistik
Author Mike Jensen
Course Statistik
Institution Aarhus Universitet
Pages 38
File Size 1.1 MB
File Type PDF
Total Downloads 5
Total Views 141

Summary

noter for fremgangsmåder til alle relevante beregninger i statistik...


Description

Mike Jensen Første semester Statistik

Hjælp til eksamen - statistik Indholdsfortegnelse Hjælp til eksamen - statistik............................................................................................................................1 Statiske begreber/Beregning af statistiske ting...............................................................................................2 Beskrivelse af statistiske fordelinger...............................................................................................................3 Normalfordeling...........................................................................................................................................3 T-fordeling (normalfordeling ved ukendt varians).........................................................................................4 Poisonfordeling.............................................................................................................................................5 Hypergeometrisk fordeling...........................................................................................................................6 Binominalfordeling.......................................................................................................................................6 Chi i anden fordelingen.................................................................................................................................7 F-fordeling.................................................................................................................................................... 7 Generelt omkring fordelinger.......................................................................................................................8 Beregning af sandsynlighed, forventede værdier og standardafvigelse - opgaveeksempel..........................9 Konfidensinterval........................................................................................................................................... 10 Konfidensinterval gennemsnit ved kendt varians - følger NF jf. den centrale grænseværdisætning...........10 Konfidensinterval gennemsnit for ukendt varians - følger NF jf. den centrale grænseværdisætning..........11 Konfidendensinterval på andele.................................................................................................................12 Konfidendensinterval på forskellen mellem to andele................................................................................13 Konfidensinterval for varians (notesamling s. 44).......................................................................................14 Konfidensinterval for forholdet mellem to varianser..................................................................................15 Konfidensinterval for forskellen ved parvise stikprøver - ukendt varians....................................................16 Konfidensinterval To uafhængige stikprøver - kendte varianser.................................................................17 Konfidensinterval To uafhængige stikprøver - ukendte varianser som antages at være ens.......................18 Konfidensinterval To uafhængige stikprøver - ukendte varianser og uens varianser..................................19 Fastlæggelse (størrelse) af stikprøvestørrelsen ved standardafvigelse.......................................................20 Fastlæggelse af stikprøvestørrelsen ved andele.........................................................................................21 Hypotesetest.................................................................................................................................................. 22 Hypotesetest på gennemsnit - kendt varians..............................................................................................22 Hypotesetest på gennemsnit - ukendt varians............................................................................................23 Hypotesetest på to uafhængige stikprøver - ukendt eller ens varians........................................................25 Hypotesetest parvise stikprøver med ukendt varians.................................................................................27

Side 1 af 38

Mike Jensen Første semester Statistik Hypotesetest andele...................................................................................................................................28 Hypotesetest på forskellen/sammenligning mellem to andele...................................................................29 Hypotesetest på en varians........................................................................................................................31 Sandsynlighedsregning..................................................................................................................................32 Andet..............................................................................................................................................................34 Den centrale grænseværdi sætning og udvidet grænseværdi sætning.......................................................34 Den empiriske regel....................................................................................................................................35

Statiske begreber/Beregning af statistiske ting N : population

n :stikprøve ( sample ) N

∑ xi

Populationens gennemsnit:

μ= i=1 N n

Stikprøvens gennemsnit:

∑ xi

´x = i=1 n

Medianen: Dette er den midterste observation i ens datasæt. Typetal (mode): Det er denne observation som forekommer flest gange.

x ¿ 2 ¿ i−μ ¿ ¿ Populationens varians: ¿

Vigtigt at huske at afvigelsen er forskellen mellem

N

∑¿ i=1

σ 2=¿ den enkelte observationsværdi og populationens gennemsnit er

x (¿¿ i−μ) . ¿

Side 2 af 38

Mike Jensen Første semester Statistik

x ¿ ¿ i−μ ¿2 ¿ Stikprøvens varians: ¿ n

¿ ∑ i=1 2

s =¿ Genvejsformler til populationsvarians og stikprøvens varians:

Populations standardafvigelse:

σ =√σ 2=

Stikprøvens standardafvigelse:



2 s=√ s =



N

∑ ( x i−μ )2 i=1

N

n

2 ( x i−μ) ∑ i=1

n−1

Højreskæv: Noget er højre skævt når over halvdelen af observationerne er venstre fra midten af koordinatsystemet. Et eksempel på dette kan være fx løn. Hvor der er mange, som tjener lidt og ”relativt få” som tjener meget. Symmetrisk: Dette er, hvor der er ca. lige mange observationer på venstre og højre af gennemsnittet. Venstreskæv: Noget som er venstreskævt har hovedparten af sine observationer på højre side af fra midten af koordinatsystemet. Et eksempel kan være hvad hastighed, som folk køre med i trafikken.

Beskrivelse af statistiske fordelinger Normalfordeling For at noget er normalfordeling skal dataen skabe en ”klokkeform”. Det er med andre ord ikke nok at dataen er symmetrisk. Man bruger kun normalfordeling når ens data er klokkeformet.

Side 3 af 38

Mike Jensen Første semester Statistik For normalfordelingen gælder at median = middelværdien. I en normalfordeling ligger data, så:   

34,1 % ligger i intervallet [middelværdi ; middelværdi + spredning[ 13,6 % ligger i intervallet [middelværdi + spredning ; middelværdi + 2spredning[ 2,3 % ligger i intervallet [middelværdi + 2spredning ; ∞[

Side 4 af 38

Mike Jensen Første semester Statistik

T-fordeling (normalfordeling ved ukendt varians) T-fordelingen er den fordeling, som minder mest om normalfordelingen. Forskellen på normalfordeling og tfordeling er at vi i t-fordelingen ikke kender varians/standardafvigelsen. Når ens frihedsgrader er større end 30 kan man approksimatierer over til normalfordelingen. Hvis det er muligt SKAL DU altid anvende tfordelingen ved en u kendt varians, da dette vil give det mest præcise svar. Når man skal slå op i bogen for at

finde sandsynligheden skal dette først gøre sig gældende:

t obs=

´X−μ0 T n−1 S / √n

x´ −μ 0 s /√ n

For at finde den kritiske grænse slås op på Appendix B-10. Først slås n - antal frihedsgrader op. Antal frihedsgrader vil typisk være 1. Hvis der ikke er noget oplyst så brug 1. Derefter skal du kigge på signifikantsniveauet. Det er så den kritiske grænse. Fx vil den kritiske grænse for

T 10−1 ; 0,05=1,833

For at finde p-værdien ved en to-sidet test gøres:

2∗P (T 9 >1,833) =2∗P ( Z 30. Hvis ens frihedsgrader er under 30 gøres det således: Man tager den kritiske grænse som man har slået op under den kritiske grænse. Jeg gør dette ved en kritisk grænse på 2,46.

2∗P(T 26 >2,46) Den tætteste værdi på 2,46, man kan slå op ved 26 frihedsgrader er 2,48.

≈ 2∗P(T 26 >2,48) Dette fås ved et signifikantsniveau på 1 procent.

¿ 2∗0,01 =0,02=2 % Da vi laver en to-sidet test skal vi gange signifikantsniveauet med 2. Dette vil give en p-værdi på ca. 2 procent. Det er VIGTIGT at huske at denne p-værdi kun er ca. Når man slår den kritiske grænse for tfordelingen slås op i tabel B-10 For at tjekke kan man slå op og udregne det for en z-fordeling. Ved forudsætninger så husk at bruge den udvidet centrale grænseværdisætning i stedet for den centrale grænseværdisætning, da man ved t-fordeling har med en ukendt varians at gøre.

Side 5 af 38

Mike Jensen Første semester Statistik Når man har noget, som er normalfordelt kan man bruge den emperiske regel:

Z-størrelse

Z=

X−μ σ

Zobs Observator for Z er:

Zobs er: Z obs=

´ X−μ 0 Z σ /√ n

´x −μ0 σ /√ n

Når man har fundet Z-størrelsen kan man slå den op i bogen på appendix B-8 og B-9. Når man skal skrive det op skrives det således: p ( Z 8| μ=6 ) =1−P ( X ≤8|μ=6 )=1−0,8472 Hvis man ikke kan slå op i tabellen, kan man approximerer over til normalfordelingen, hvis

μ>10

Hypergeometrisk fordeling udtrykker antal succes’er ud af en stikprøve på n – hvor man simpelt tilfældigt udvælger en stikprøve på n fra en population på N

Hvis denne model forekommer skal du approksimerer over til binominalfordelingen eller normalfordelingen.

Binominalfordeling Udtrykker antal gunstige udfald ud af n forsøg – hvor hvert forsøg har to (deraf ordet bi-) mulige udfald, – hvor sandsynligheden for et gunstigt udfald er konstant i hele forløbet og – hvor der er uafhængighed mellem udfaldene. Forudsætninger For at noget er binominalfordelt er der en række forudsætninger, som skal være opfyldt. Hvis man i en given undersøgelse laver en lang række forsøg, som for eksempel terningskast, og at der hver gang er en fast sandsynlighed og uafhængighed er det binominalfordelt. Se evt. s. 11 i notesamlingen. En binomialfordelt stokastisk variabel angiver antal gunstige udfald ud af n forsøg i en proces, hvor sandsynligheden for et gunstigt udfald er konstant fra forsøg til forsøg, og hvor udfaldene er uafhængige af hinanden.    

Hvert forsøg resulterer i et af to gensidigt udelukkende udfald.

P ( A )= p er konstant De enkelte forsøg er uafhængige Der gennemføres et hvis antal n forsøg

Beregning af sandsynlighed Når man skal slå en sandsynlighed ved binominalfordelingen op, bruges appendix B-1 til B-5. Man skriver det således: P ( X=3|n=10 , p=0,1)=P ( X ≤ 3 )−P ( X ≤ 2 ) =0,9872 −0,9298=0,0574

Side 7 af 38

Mike Jensen Første semester Statistik

Chi i anden fordelingen Man bruger Chi i anden fordelingen til at finde konfidensintervallet for test af σ2x , når X er normalfordelt eller stikprøven er tilstrækkelig stor. For at slå sandsynligheden for Chi i anden fordeling op bruges appendix B-11. Der er dog ikke særlig mange værdier. Når man skal slå op i chi i anden fordelingen finder man bare sine frihedsgrader, også finder man den kritiske værdi, ved at gå ud til det signifikantsniveau som man ønsker at teste. Man kan approksimerer til normalfordeling hvis der er mere end 50 frihedsgrader.

F-fordeling En f-fordeling bruges når man vil lave en sammenligning mellem to varianser fra normalfordelte populationer. Beregning af sandsynlighed ved f-fordeling For at beregne sandsynligheden slås op i bogens tabel B-12 til B-19. Man slår

f n −1 ;n −1 op. 1

2

Det er ekstemt vigtigt at man husker at slå den rigtige op. Det vil sige at n1 vil altid være den, hvor at variansen er størst. Hvis det er en f-værdi som ikke kan slås op, kan der afrundes til den nærmeste. Find p-værdien

190 =1,9 100

Først gik på: F0 bs =

Derefter skal man finde en kritisk værdi som er mindre og en som er større.

2∗P (F 60,40>1,8 ) =0,05 2∗P (F 60,40>2,02 ) =0,02 Det vil så betyde at p-værdien vil ligge mellem 2 og 5 procent. Da p-værdien på forventes at være 2 +5 / 2 = 3,5 procent forkastes H0.

Side 8 af 38

Mike Jensen Første semester Statistik

Generelt omkring fordelinger

Side 9 af 38

Mike Jensen Første semester Statistik

Beregning af sandsynlighed, forventede værdier og standardafvigelse opgaveeksempel

Spørgsmål 1 - svar:

Spørgsmål 2 - svar: Her skal det antages, at mængden er konstant henover ugen, samt at der er uafhængighed mellem dagene. De bør bemærkes, at beregningerne er baseret på normalitetsantagelsen samt på estimater af μ og σ : Sandsynligheden for at den overstiger 3500 kg. På 7 dage:

3500−2500 =P Z> ( X−μ )=2,26 ) =0,0119=1,19 % 434 σ ) ( (

Z>

P ( S 7> 3500) =P ¿

Side 10 af 38

Mike Jensen Første semester Statistik Sandsynligheden for at den overstiger 3500 kg på 9: 

Her er man nødt til at beregne en ny værdi for σ , da den kun dækker over de 7 dage. Derfor beregner man det således: √ dagene · standardafvigelsen pr . dag= √ 9 ·164 . Derudover skal der findes en ny forventede værdi. Dette sker ved at gange den forventede værdi pr. dage med det nye antal dage: 360 ·9=3240 : 

3500−360 · 9 260 =P Z> =0,53 =0,2981=29,81% = ( X−μ ) σ ) ( ( √ 9· 164 ) 492

Z>

P ( S 9 >3500) =P¿

Konfidensinterval Konfidensinterval gennemsnit ved kendt varians - følger NF jf. den centrale grænseværdisætning Når man skal finde konfidensintervallet for gennemsnittet

(μ) , og har en kendt varians bruges formlen

μ= x´ ± Z a /2∗σ / √n Når man skal løse opgaven, er det en fordel at gør det i disse punkter: 1. Skriv oplysningerne op 2. Definer den stokastiske variable 3. Valg af konfidensintervallet. Dette konfidensinterval vælges, fordi at der testes gennemsnittet med en kendt varians. 4. Forudsætninger. Det vil typisk være disse, men det afhænger selvfølgelig af situationen:  Estimatoren, ´x , skal være opfyldt ifølge den centrale grænseværdisætning. Er fordelingen nogenlunde normalfordelt eller er man usikker på om dataen er skæv eller moderat skævt fordelt?  Simpel tilfældig udvalgt. Er den virkelig simpelt tilfældigt udvalgt? Hvis det er en butik, og de har kigget på omsætningen i december, og de har udplukket dagene op til jul, er det ikke simpelt tilfældigt udvalg. Det kommer ikke til at vise et retvisende billede.  Baseret på n observationer  Troværdigt svar. Er svarene virkelig troværdige? Måske folk har en grund til at lyve med hensyn til sine svar? Mange ville for eksempel lyve med hensyn til deres vægt. Svarene skal virkelig virke troværdige. De fleste har en anden dagsorden end sandheden.  Uafhængighed. Uafhængigheden mellem de enkelte forsøg er vigtigt. Det kan fx være, hvis butikken har lukket om søndagen, køber folk så mere mælk om lørdagen for at sikre sig at de ikke løber tør? Der skal med andre ord være uafhængighed mellem de enkelte dage af indkøbet af mælk.  Endelig population eller proces (I dette eksempel er det en proces). Hvis man laver forsøg om noget man gerne vil sige noget om i fremtiden / bruge i fremtiden vil det altid være en proces, hvorimod hvis man spørger en ”lukket population” vil det være endelig population. 

Hvis

n 5 være opfyldt . 2. Hvis der approksimeres fra den hypergeometriske, skal

V ( x ) =n· 







(

)

s s N −n N−n · 1− · n· ^p · ( 1−^p ) · >5 væreopfyldt . N N−1 N N−1

Simpel tilfældig. Er den virkelig simpelt tilfældigt udvalgt? Hvis det er en butik, og de har kigget på omsætningen i december, og de har udplukket dagene op til jul, er det ikke simpelt tilfældigt udvalg. Det kommer ikke til at vise et retvisende billede. Troværdigt svar. Er svarene virkelig troværdige? Måske folk har en grund til at lyve med hensyn til sine svar? Mange ville for eksempel lyve med hensyn til deres vægt. Svarene skal virkelig virke troværdige. De fleste har en anden dagsorden end sandheden. Uafhængighed. Uafhængigheden mellem de enkelte forsøg er vigtigt. Det kan fx være, hvis butikken har lukket om søndagen, køber folk så mere mælk om lørdagen for at sikre sig at de ikke løber tør? Der skal med andre ord være uafhængighed mellem de enkelte dage af indkøbet af mælk. Endelig population eller proces (I dette eksempel er det en proces). Hvis man laver forsøg om noget man gerne vil sige noget om i fremtiden / bruge i fremtiden vil det altid være en proces, hvorimod hvis man spørger en ”lukket population” vil det være endelig population

Side 13 af 38

Mike Jensen Første semester Statistik 

Hvis

n 5 og n i ·( 1−^pi ) >5 2. Hvis der approksimeres fra den hypergeometriske, skal V(X) =

ni · 

( )

N i−ni si si N i−ni >5 være opyldt · ni · ^pi · (1− ^pi ) · · 1− N i −1 Ni N i N i−1

Notation: for stikprøvei=1,2

Side 14 af 38

Mike Jensen Første semester Statistik 









Simpel tilfældig. Er den virkelig simpelt tilfældigt udvalgt? Hvis det er en butik, og de har kigget på omsætningen i december, og de har udplukket dagene op til jul, er det ikke simpelt tilfældigt udvalg. Det kommer ikke til at vise et retvisende billede. Troværdigt svar. Er svarene virkelig troværdige? Måske folk har en grund til at lyve med hensyn til sine svar? Mange ville for eksempel lyve med hensyn til deres vægt. Svarene skal virkelig virke troværdige. De fleste har en anden dagsorden end sandheden. Uafhængighed. Uafhængigheden mellem de enkelte forsøg er vigtigt. Det kan fx være, hvis butikken har lukket om søndagen, køber folk så mere mælk om lørdagen for at sikre sig at de ikke løber tør? Der skal med andre ord være uafhængighed mellem de enkelte dage af indkøbet af mælk. Endelig population eller proces (I dette eksempel er det en proces). Hvis man laver forsøg om noget man gerne vil sige noget om i fremtiden / bruge i fremtiden vil det altid være en proces, hvorimod hvis man spørger en ”lukket population” vil det være endelig population Hvis

ni...


Similar Free PDFs