Sandsynlighed normalfordeling og den centrale grænseværdisammensætning PDF

Title Sandsynlighed normalfordeling og den centrale grænseværdisammensætning
Author Ana Larsen
Course Introduktion til kvantitative metoder
Institution Aalborg Universitet
Pages 11
File Size 571.1 KB
File Type PDF
Total Downloads 40
Total Views 124

Summary

modul 11: forelæsning 3
v/ Annette Q. Romani
Litteratur:
- Agresti 4th Edition: Kapitel 2 (side 15-25) og Kapitel 4 (side 73-99) / Agresti: 5th Edition. Kapitel 2 s. 26-25 og kapitel 3
...


Description

Hvorfor er sandsynligheder interessante?  Sandsynligheden er udtryk for en vurdering af, hvorvidt en hændelse vil indtræffe eller ej.  Sandsynligheder er interessante for mange problematikker i hverdagen, som involverer en usikkerhed e.g. sandsynligheden for, at togene kører uden forsinkelser om morgenen. Man kan håndtere usikkerheden ved beregne sandsynligheden for, at toget kører til tiden.  Sandsynligheder er også interessante, når vi har en stikprøve (mindre del af en gruppe mennesker), som skal sige noget om en population (den samlede gruppe). Her er usikkerheden relevant, når vi tester vores hypoteser, idet vores hypotese er baseret på hele populationen, mens vores empiri er baseret på stikprøven. Eksempel - fra stikprøve til population  Eksempel; vi har et simpelt tilfældigt sample på 1500 mennesker og vi spørger dem om, hvilken is der er bedst blandt vanilje, chokolade og jordbær.  En simpel tilfældig stikprøve er en stikprøve, hvor alle har lige stor sandsynlighed for at deltage.  Hvis vores sample er helt tilfældigt, kan vi estimere, hvordan populationen har det med de forskellige is: Chokoladeis

Vaniljeis

Jordbæris

20%

30%

50%

Population og stikprøve  Population er en statistisk betegnelse for en samling af individer eller genstande. E.g. hvis vi vil undersøge danskernes højde, så er den relevante population alle personer i Danmark. E.g. hvis vi vil undersøge terningkast, så er den relevante population de seks sider på terningen.  Stikprøve er en samling af værdier fra populationen e.g. 1000 forskellige højder i Danmark eller en række kast med en terning.  Udvælgelsesmekanismen er vigtig, det skal være tilfældig udvælgelse e.g. skriv alle personnumre på en seddel, udtræk tilfældigt 1000 personer og mål deres højde.  Vi er interesseret i at sige noget om hele populationen, men fordelen ved at se på en stikprøve er, at det er hurtigere og billigere end at se på hele populationen. Vi får et estimat for population e.g. gennemsnitlige højde, eller andelen der er kristne. Sandsynlighedsmodel  Sandsynlighedsmodel er en matematisk udregning, på den usikkerhed som findes.  Den afhænger af: ◦

Udfaldsrummet: en sampling af alle mulige udfald. E.g. når vi kaster en terning er U = {1,2,3,4,5,6}. Vi antager, at alle udfald har samme sandsynlighed.



Hændelsen: en samling af udfald, dvs. en delmængde af udfaldsrummet. f.eks. hvis vi ser på en terning, så kan vi være interesseret i følgende hændelser.



-

A: at man får et lige øjental, A = {2, 4, 6}

-

B: at man ikke får en 6’er, B = {1, 2, 3, 4, 5}

-

C: at man får et øjental, som er større end 4, C = {5,6}.

Sandsynlighed: den andel af gange en hændelse sker, hvis man gentager det uendeligt mange gange P(probalility). -

P(A) = 3/6 = 1/2

-

P(B) = 5/6

-

P(C) = 2/6 = 1/3

Sandsynlighed- eksperiment 

Sandsynlighed =

gunstige udfald mulige udfald

 Hvis vi har en terning, hvad er sandsynligheden for at slå en 6’er?

1 =16.66% 6

 Hvis vi har to terninger, hvad er sandsynligheden for at slå to ens tal?

6 =16.66% 36

 Eksperimenter er karakteriseret ved at alle udfald er lige sandsynlige 1

2

3

4

5

6

1

(1,1)

(1,2)

(1,3)

(1,4)

(1,5)

(1,6)

2

(2,1)

(2,2)

(2,3)

(2,4)

(2,5)

(2,6)

3

(3,1)

(3,2)

(3,3)

(3,4)

(3,5)

(3,6)

4

(4,1)

(4,2)

(4,3)

(4,4)

(4,5)

(4,6)

5

(5,1)

(5,2)

(5,3)

(5,4)

(5,5)

(5,6)

6

(6,1)

(6,2)

(6,3)

(6,4)

(6,5)

(6,6)

-

De forskellige udfald er lige sandsynlige

Sandsynlighed - en virkelig population 

Sandsynlighed =

Antal elementer med egenskaben z i populationen N

 Udtrækning af et element fra en virkelig population N, hvoraf k har egenskaben z.  For eksempel hvis populationen N er mænd (N=1.500), z er over 174 og k elementer (k=1.000) har alle egenskaben z. Dvs. sandsynligheden for være over 174 er

P (z )=

1.000 =2/3 1.500

 De forskellige udfald behøver ikke være lige sandsynlige- e.g. spiller på heste så er der mange forhold som spiller ind på sandsynlighederne for at vinde. Kategorisk og intervalskaleret variabler  Nominel variabel En variabel hvor kategorierne er gensidigt udelukkende, men hvor kategorierne ikke kan rankeres e.g. køn, kommune og civilstand  Ordinalskaleret variabel En variabel, som rangeres, men afstanden mellem kategorierne er ikke målbar e.g. holdninger og værdier  Intervalskaleret variabler En variabel, som kan rankeres, men nu kan man måle niveauforskellene e.g. indkomst, alder, vægt og familiestørrelse De kategoriske variabler har få udfald, mens de intervalskaleret variabler har uendelig mange udfald. Kategorisk og intervalskaleret variabel En kategorisk variabel har et antal værdier som kan tælles. For eksempel: sandsynligheden for at score hvis man har to skud i en straffesparkskonkurrence. f(0)=0.20, f(1)=0.44 og f(2)=0.36. Så er sandsynligheden for at score mindst 1 mål er P ( y ≥ 1 )=P ( x=1 )+ P ( x =2 )=0.44+ 0.36=0.80  Tælle hændelser  Har diskrete hop imellem efterfølgende værdier  Har målelige sandsynligheder for hver enkelt værdi

Sandsynlighed er højden En intervalskaleret variabel har uendelig mange værdier. Sandsynligheden for at x ligger mellem a og b er

P(a ≤ X ≤ b)



Et uendeligt antal værdier



Går kontinueret fra værdi til værdi



Ingen målelig sandsynlighed til hver individuel værdi

Sandsynligheder arealet

Sandsynlighedsfunktion  Frekvensfunktion: hvor mange har fået hvad  Sandsynlighedsfunktionen er sandsynligheden for, at en mængde udfald sker

.(er arealet under en kurve) ◦



Vi kan ikke have negative sandsynligheder eller sandsynligheder over 1.

Sandsynlighederne for alle værdier skal være lig med 1.

0 ≤ f ( x) ≤ 1

xi f (¿)=x 1 + x 2 +.. x N =1 ∑¿

 For eksempel: I en paraplyforretning ved man af erfaring, at den andel af kunder som ikke køber en paraply er ¼, mens ½ køber en paraply og ¼ køber to paraplyer. Dvs. sandsynligheden for at købe en paraply er f(0)=1/4, f(1)=1/2 og f(2)=1/4. ◦

Sandsynligheden for at købe mindst en paraply er: f(1)+f(2)= 1/2+1/4=3/4



Sandsynligheden for at købe højest en paraply er: f(0)+f(1)=1/4+1/2=3/4

Kumulerede sandsynlighed  Kumulerede sandsynlighed er

xi f¿ ) - det betyder, at sandsynlighederne er lagt F ( x )=∑ ¿

sammen. ◦

Trappefunktion for en kategorisk variabel (springet mellem to trin er sandsynligheden for det udfald)



Sammenhængende funktion for en intervalskaleret variabel (hældningen på F siger noget om hvor meget den kumulerede sandsynlighed ændrer sig, når x øges). Hældningen på F(x) kaldes tæthedsfunktionen og betegnes med f(x) f ( x )=

dF (x) dx



Den kumulerede sandsynlighedssfunktion F kan bruges til at finde sandsynligheden for, at X antager en værdi i et givent interval f.eks. mellem a og b. P ( a< X ≤ b )= F ( b)−F (a) sandsynligheden for, at X er større end a, men mindre end eller lig med b.



Relevant at bruge hvis man vil sige hvor mange har mindst/mest

Eksempel-antal bøger i hjemmet diskret variabel For eksempel ses det at 2.257 elever ud af de 7.225 har mellem 26 og 100 bøger hjemme. Det svare til, at 31.24 % af samtlige studerende har mellem 26 og 100 bøger hjemme. Det ses også at 66.37 % af de studerende har 100 bøger eller derunder hjemme. Antal

Andele %

How many books at home

Freq.

Percent

Cum.

0-10 books 11-25 books 26-100 books 101-200 books 201-500 books More than 500 books

1,233 1,305 2,257 1,115 880 435

17.07 18.06 31.24 15.43 12.18 6.02

17.07 35.13 66.37 81.80 93.98 100.00

Total

7,225

100.00

Kummuleret andele %

Regler for sandsynligheder  Sandsynligheden for, at en hændelse ikke forekommer er hændelsen forekommer P ( not ) =1−P( A)

1 minus sandsynligheden for, at

e.g. sandsynligheden for ikke regn er 1 minus sandsynligheden for at der er regnvejr  Enten- eller princippet: Hvis to hændelser intet har til fælles er sandsynligheden for at den ene eller den anden forekommer lig med summen af deres individuelle sandsynligheder

P ( A eller B )=P ( A ) +P (B) e.g. sandsynligheden for at det er solskin og I har forelæsning

 Både- og princippet: Hvis man vil finde sandsynligheden for to hændelser, der har en indbyrdes afhængighed, skal man multiplicere sandsynligheden for hver af dem for at få sandsynligheden for kombinationen af de to hændelser P ( A og B )=P ( A )∗P(B) e.g. sandsynligheden for at det er solskin og at I spiser is

Normalfordeling  For eksempel hvis vi er interesseret i at måle danskernes højde. Vi udtrækker et sample på 1000 dansker. Gennemsnits højden er 174, men nogen er lidt mindre eller lidt større. Få er meget mindre eller meget større. Disse variationer kan forklares med en statistisk fordeling. Den mest centrale fordeling er normalfordelingen.  Normalfordelingen er fuldt specificeret, når vi kender middelværdien og variansen. Normalfordelingen er systematisk omkring gennemsnittet, som ligger i midte af fordelingen, og observationerne er ligeligt fordelt på hver sin side af middelværdien.  Da histogrammet er empirisk funderet så er normalfordelingen teoretisk funderet baseret på middelværdien og variansen. Dette kan give problemer, hvis vi har en skæv fordeling.  Den empiriske fordeling kan være højre skæv, dvs. fordelingen har en lang hale til højre (personer der er meget høje) eller venstre skæv dvs. fordelingen har en lang hale til venstre (personer der er meget lave

Middelværdi, varians og standardafvigelser n

 Middelværdien er

∑ xi

´x = i=1 n

.

Middelværdien

´x

er lig summen af de observerede værdier

delt med antallet af observationer n

 Variansen er

s 2=

2 ∑ ( x i−´x ) i=1

. Summen af observationers kvadrerede afvigelser fra

n−1

gennemsnittet divideret med antallet af observationer minus 1.  Siger noget om hvor langt man ligger fra gennemsnittet i gennemsnit.  Standardafvigelsen s= √ s2 . Kvadratroden af variansen er lig standardafvigelsen (den gennemsnitlige afstand mellem observationerne og gennemsnittet)  Standardfejlen

s . e .=

s . Standardfejlen af afhænger af standardafvigelsen og stikprøvens √n

størrelse- jo større stikprøven er jo mindre er standardfejlen. Stikprøvens middelværdi er standardafvigelsen σ .

´x

og standardafvigelsen er s. Populationens middelværdi er

μ og

Eksempler på normalfordelinger  Samme standardafvigelse, men forskellige middelværdier

 Forskellige standardafvigelser og forskellige middelværdier

Normalfordeling og standardnormalfordeling Normalfordeling 1. Klokkeformet 2. Total areal =1 3. Symmetrisk

Standardnormalfordeling Z =( x−μ )/ σ standardafvigelsen. 1.

μ =0

2.

σ =1

den observeret værdi minus middelværdien og divideret med

Z har middelværdien 0 og standardafvigelse 1. Standardnormalfordelingen er blot det specialtilfælde af normalfordelingen hvor middelværdien er 0 og standardafvigelsen er 1. Tæthedsfunktionen betegnes φ(z ) og dens kumulerede sandsynlighedsfunktion er φ (z) (se z-tabellen i bagerst i bogen)

Standardnormalfordeling og sandsynligheder Hvor sandsynligt er det, at måle den værdi vi har målt? ◦

68% sandsynlighed at målingen ligger indenfor 1 standardafvigelse fra gennemsnittet



95% sandsynlighed at målingen ligger indenfor 2 standardafvigelser fra gennemsnittet



99.7% sandsynlighed at målingen ligger indenfor 3 standardafvigelser fra gennemsnittet

De store tals lov  Stikprøven konvergere mod populationen, når stikprøven er stor nok. Med andre ord, sandsynligheden for at stikprøvens middelværdi er tæt på populationens middelværdi kan blive så stor som man ønsker ved at anvende en stor nok stikprøve.  Hvis vi er interesseret i at måle populationens middelværdi, så kan vi komme tæt på middelværdien ved at anvende en stor nok stikprøve, fordi standardafvigelsen af stikprøvegennemsnittet mindskes, når stikprøven vokser mod uendelig  Hvor stor en sample størrelse skal anvendes? det afhænger af populationens fordeling, men sample på helt ned til 20 observationer har vist sig at fungere.

Den centrale grænseværdisætning  Når gennemsnittet af et vist antal observationer er identisk fordelte, vil variablen være tilnærmelsesvis normalt fordelte, uanset hvilken fordelingen variablen har.  Så jo større n er, jo større sandsynlighed er der for, at vi får en fordeling, der næsten er normalt fordelt.

 Den centrale grænseværdisætning fortæller os, at uanset hvilken fordeling observationerne i en simpel tilfældig stikprøve følger, så vil stikprøvegennemsnittet altid være approksimativt normalt fordelt, når blot stikprøven er tilstrækkelig stor.

Opsummering  Forstå forskellen på population og stikprøve  Forstå hvad sandsynligheder er  Redegør for middelværdien, variansen og standardafvigelse samt normal fordelingen, standardnormal fordelingen og den centrale grænseværdisætning  Beregne sandsynlighederne for at få en større eller mindre værdi  Beregne sandsynlighederne for 90%, 95 % og 99% er over eller under gennemsnittet...


Similar Free PDFs