Formelsamling ved brug af bewistat PDF

Title Formelsamling ved brug af bewistat
Author Daniel Damborg Andersen
Course Kvantitativ metode
Institution Aarhus Universitet
Pages 16
File Size 393.1 KB
File Type PDF
Total Downloads 15
Total Views 142

Summary

Download Formelsamling ved brug af bewistat PDF


Description

Formelsamling for videregående statistik

Indholdsfortegnelse BEWISTAT FUNKTIONER....................................................................................................................................... 3 KAPITEL 3 OG 4 – SANDSYNLIGHEDSTEORI OG KOMBINATORIK.............................................................4 KAPITEL 5, 6 OG 7 – DISKRETE OG KONTINUERTE FORDELINGER..........................................................6 KAPITAL 12.1-12.2 – VARIANSANALYSE........................................................................................................... 7 KAPITEL 13.1-13.2 – GOODNESS OF FIT........................................................................................................... 9 KAPITAL 13.3 – KONTINGENSTABELLER....................................................................................................... 12 KAPITEL 14 – STIKPRØVETEORI...................................................................................................................... 14

Bewistat funktioner p < 0,05 vi forkaster H0 og accepterer derved H1 p > 0,05 vi kan ikke forkaste H0 og accepterer den derved Bewistat-funktion 2.a

Svar Binomialfordeling - beregning af sandsynlighed

2.c

Hypergeometrisk fordeling beregning af sandsynlighed

2.b

Poissonfordeling - beregning af sandsynlighed

2.e

Normalfordeling - beregning af sandsynlighed

Forudsætning Man kender sandsynligheden og antal forsøg. Eksempel opgave 1.3 november 2018 Man kender antal mærkede, antal forsøg samt populationsstørrelsen Eksempel opgave 3.4 Maj 2018 Vi kender en intensitet fx 8 hændelser pr døgn og vi kender en x-værdi Eksempel opgave 4.2 Maj 2018 Vi kender middelværdi og standardafvigelse. Vi kan også finde fraktiler med denne funktion. Skal det være tilfældigt udvalgte lejligheder vælges ”sandsynlighed for gennemsnit”

4.5.a

4.3.a

Variansanalyse sammenlignende test af middelværdier Bruges også til test til sammenlignende test af varians ved brug af Bartletts test, hvor man tester om der er varianshomogenitet. Test af specifikke kategoriandele i en multinomisk model. (Goodness og fit). Spm kan være: ”test om stikprøven er repræsentativ”

4.3.c

Observationer følger en poissonfordeling (Goodness og

Side 2 af 16

Eksempel opgave 3.1 + 3.2 Maj 2018 Vi skal have et datasæt hvor vi vil teste om disse tilnærmelsesvis kan siges at have samme middelværdi. Eksempel opgave 1.1 Maj 2018 eksempel på forudsætninger for varians i 1.2 Vi skal kende antal observationshyppigheder (stikprøvefordelingen) og fordelingsmetoden (Ligelig eller specifik) Eksempel opgave 2.1 Vi skal kende obersarvationskategorier samt

fit)

4.3.e

4.3.b

4.3.d

Vær opmærksom på værdierne skal være mindst 3. hvis ikke dette er tilfældet læg da to kategorier sammen. Træk da en frihedsgrad mere fra. Observationer følger en normalfordeling (Goodness of fit)

Test for uafhængighed eller homogenitet i antalstabeller

Eksempel opgave 9.1 i svar på opgaver til kapitel 13 Kræver at vi har en tabel hvor vi vil undersøger sammenhængen mellem vores observerede variable

Stratificeret stikprøve Estimation af populationsgennemsnit Bruges til at bestemme konfidensinterval Allokering af stikprøve på strata. Proportional og optimal allokering ud fra data

7.b (1)

Vi skal have et datasæt samt vide noget om hvor mange kategoriintervaller der skal danne grundlag for testen.

Observationer følger en binomialfordeling (Goodness of fit)

Bliver ofte brugt i sammenhæng med spørgsmål jf. 4.3.a

7.a (2)

Eksempel opgave 4.1 Maj 2018

Eksempel opgave 2.2 August 2018 Vi skal kende observationskategorier samt observationshyppigheder. Ligeledes skal vi kende en stikprøvestørrelse

OBS. Vær opmærksom på at kommenter hvad der er med til at angive teststørrelsen.

7.a (1)

observationshyppigheder. Vær opmærksom på om lambda er oplyst eller ej og læg mærke til ”Foretag test på basis af”

Stratificeret stikprøve -

Side 3 af 16

1.3 kan anvendes til opstilling af krydstabel hvis man kun får et helt datasæt. Eksempel opgave 2.2 Maj 2018 Vi skal kende Strata(populationen), stikprøvestørrelse, stikprøvegennemsnit samt standardafvigelsen Eksempel opgave 3.1 november 2018 Vi skal her bruge strata og standardafvigelsen. Dette sker også i 7.a, men her vælges i stedet for estimation altså allokering af stikprøve på strata. Vi skal samtidig også angive vores stikprøvestørrelse. Eksempel opgave 3.3 november 2018 Vi skal kende

Estimation af populationsandel

7.b (2)

Allokering af stikprøve på strata. Proportional og optimal allokering ud fra data

5.d

Stikprøvestørrelse ved vurdering efter ønsket fejlmargin

Strata(populationen), stikprøvestørrelse samt stikprøveantal (Antal mærkede i stikprøven) Eksempel opgave 2.3 i svar til Kapitel 14 Vi skal her bruge strata samt den populationsandel vi udregner ved hjælp af 7.b (1). Eksempel opgave 2.3 i svar til Kapitel 14 Populationsstørrelse og spredning skal være kendt. Eksempel opgave 3.4 november 2018

Kapitel 3 og 4 – Sandsynlighedsteori og kombinatorik Sandsynlighedsfunktion = P = Side 4 af 16

Sandsynlighedsfelt = et udfaldsrum U med en tilhørende sandsynlighedsfunktion P. Hændelse = en delmængde af udfaldsrummet i et udfaldsrum. Udfald

DEFINITION/FORMEL U Eksempel 1 – Kast med terning: U = (plat, krone)

Sandsynligheds-funktion

Eksempel 2 – Kast med terning: U = (1,2,3,4,5,6) P

BESKRIVELSE/KOMMENTAR Mængde, som består af alle tilladelige udfald af et givent stokastisk eksperiment. Eks. sandsynligheden for at slå plat eller krone Sandsynligheden for, at u indtræffer

Krav til sandsynlighedsfunktion:

a ¿ 0 ≤ P (u)≤ 1 b ¿ summen for alle udfald u i U er 1 ∑ P ( u) =1 u ∈U

Eksempel 1:

P ( plat ) =P ( krone )=0,5 Eksempel 2:

P (1 )=P (2 )= P ( 3 ) =P ( 4 ) =P ( 5 )=P(6) Sandsynlighedsfelt Fælleshændelse Foreningshændelse Komplementær-hændelse

Eksempel:

P= A ∩ B A ∩B = P (A ) +P ( B )−P( A ∪ B) P= A ∪ B A ∪ B=P ( A ) +P (B ) −P( A ∩ B) ´ P= A P ( A´ ) =1 −P (A )

Betinget sandsynlighed Bayes formel

P( A ∩ B ) B ( A|B )∗ P ( B) P (B| A ) =P P ( A) P ( A |B ) =

A og B er hændelser med

P ( A ) ≠ 0 og P ( B ) ≠ 0 Uafhængighed

En hændelse A er uafhængig af B hvis

P ( A |B ) =P ( A )

Betingelsen skrives som:

Side 5 af 16

Et udfaldsrum U med en tilhørende sandsynlighedsfunktion P Sandsynligheden for, at en hændelse både er i A OG B Sandsynligheden for, at en hændelse er i A ELLER B Sandsynligheden for, at hændelsen IKKE er i A. Sandsynligheden for, at det IKKE er A kan findes ved at sige 1 minus sandsynligheden for, at det ER A. 1 (100%) vil altid være hele sandsynligheden. Sandsynligheden for A givet, at en hændelse B er opfyldt. Sandsynligheden for B givet en hændelse A (man vender den om sammenlignet med betinget sandsynlighed)

P ( A ∩ B )= P ( A ) ∗P ( B )

Laplace’s formel

Binomialkoefficient Udvælgelse, hvor rækkefølgen er ligegyldig

antal udfald med succes antal mulige udfald antal gunstige ¿ antal mulige P ( succes )=

C

n r

C

n r

n! ¿ r !∗(n−r)

Sandsynlighed for en hændelse, når alle udfald er lige sandsynlige. KOMBIN(n;r) i Excel Fakultet n! Fås gennem KOMBIN i excel.

Kapitel 5, 6 og 7 – Diskrete og kontinuerte fordelinger Diskrete fordelinger: - Binomial Side 6 af 16

-

Hypergeometrisk Poisson Multinomial

Kontinuerte fordelinger: - Normalfordeling - Standardnormalfordeling - X2, z- og t-fordelinger

Kapital 12.1-12.2 – Variansanalyse

Side 7 af 16

Når vi tester, om mere end to middelværdier er ens (ANOVA på engelsk) OBS: Vi bruger kun envejs-analyse (kan også gøres gennem tovejs) Se nedenstående tabel

12.2 Envejs-analyse: Slavisk gennemgang for gennemførelse af variansanalyse 1. Vi har flere end to middelværdier, og vi vil teste, om de er ens. Vi vil altså teste om det er sandsynligt at vores middelværdier er ens hvilket giver os følgende hypotesetest: Hypotese: H 0 : μ 1=μ2=… μm

H 1 :mindst en af middelværdierne er ikkelig med de andre

2. Man gennemfører en variansanalyse gennem Bewistat 4.5.a. for at teste denne hypotese. Dog skal der for at denne test giver et retvisende resultat være 3 forudsætninger opfyldt. Disse forudsætninger er som følger: a. De enkelte stikprøver stammer fra en normalfordeling o Normalfordelingen testes ved at lave goodness of fit gennem Bewistat 4.3.e b. Der er varianshomogenitet (her bruger vi Bartlett’s test som bliver gennemgået ved punkt 3). o Varianshomogenitet testes gennem Bartlett’s test. Dette gøres gennem variansanalysen, hvor man nederst i det ark, man får ud, kan se Bartletts test. OBS: Når man laver variansanalyse, får man to p-værdier oplyst så husk at lægge mærke til, at det her er p-værdien for Bartlett’s test og IKKE for variansanalysen. o H0 betyder, at der er varianshomogenitet. Hvis p-værdi > signifikansniveau, accepterer vi H0. c. De enkelte stikprøver er uafhængige af hinanden. o Man kan ikke teste, om stikprøverne er uafhængige af hinanden. Her skal man dog blot bruge sund fornuft.

3. Forudsætning b for at kunne gennemføre variansanalysen var at der var varianshomogenitet. Dette testes som nævnt ved hjælp fra Bartlett’s formel. Denne formel skal give os indsigt i om vi kan sandsynliggøre, at de forskellige stikprøvers varianser er ens. Dette giver os følgende hypotesetest:

Side 8 af 16

Hypotese: H 0 : σ 1=σ 2=… σ m

H 1 : Mindst en af varianserne er ikke lig med hinanden .

For at kunne gennemføre Bartlett’s test har vi også her 3 forudsætninger hvilke er som følger: a. De enkelte stikprøver stammer fra normalfordelingen b. Alle stikprøverne har en størrelse på mindst tre (dvs. alle stikprøver skal have mere end tre observationer) c. De enkelte stikprøver er uafhængige af hinanden. Som beskrevet under 2.b findes P-værdien for bartlett’s sammen i samme ark som Pværdien for ANOVA. Vær opmærksom på ikke at forveksle disse. 4. For begge P-værdier gælder at HVIS P-værdien > signifikansniveauet fastholder vi H0, og forkastes H1, men hvis P-værdien < signifikansniveauet må vi acceptere H1 og forkaste H0.

Side 9 af 16

Kapitel 13.1-13.2 – Goodness of fit Vi tester: - Om noget er ligeligt fordelt eller ikke (13.1) - hvorvidt vores datamateriale følger en bestemt fordeling.

13.1 – Test for fordeling med kendte parametre Hypotese

Definition/formel Hvis vi tester, om noget er ligeligt fordelt:

H 0 : p 1= p 2= p3 …= p m H 1 : p1 ≠ p2 ≠ p 3 … ≠ pm H 0 : For alle i er p i=q i H A : For mindst et i er p i ≠ qi Forudsætninger

Kommentar HUSK AT SKRIVE PROCENTDELEN IND I HYPOTESEN FREM FOR DE ADSPURGTE. HVIS MAN LAVER DENNE FEJL TIL EKSAMEN, ER DET EN FORSTÅELSESFEJL, OG MAN FÅR IKKE POINT. MAN KAN OGSÅ SE HYPOTESEN, NÅR MAN LAVER DEN I BEWSITAT

Vi har en stikprøve med N elementer opdelt i k kategorier. Det observerede antal i hver kategori er Oi.

Har man en teststørrelse på mindre end 3, kan man ikke umiddelbart anvende testen, idet man risikerer, at p-værdien bliver for lille, og man derved begår flere type 1 fejl.

Alle forventede værdier Ei = N * qi er større end 3

Hvis en teststørrelse er mindre end 3, lægger man to kategorier sammen.

Ei > 3 Teststørrelse

K

Q=∑ i=1

( O1−E i)

Det betyder egentlig bare:

2

forventede 2 Det observerede−det ¿ ¿ ¿ ¿

Ei

er X 2 ( k−1 )−fordelt

P-værdi

Konklusion

Det sidste led viser beregningen af antal frihedsgrader, hvor k = antal kategorier, og man trækker så altid 1 fra. HVIS P-VÆRDI ER STØRRE END VORES KRITISKE VÆRDI, KAN VI FORKASTE H0 HYPOTESEN.

p=P( X 2 ≥ Q)

Hvis

P−værdi > signifikansniveau = H

Bewistat: Når vi tester, bruger vi Bewistat 4.3  alt efter hvad vi tester, bruger vi den underkategori. Eksempelvis hvis vi tester for normalitet, bruger vi bewistat 4.3.e. Side 10 af 16

Ligelig eller specifik fordeling i Bewistat I Bewistat kan vi blive bedt om at skrive, om der er tale om ligelig eller specifik fordeling. Hvis alle er fordelt med lige stor sandsynlighed, anvender vi ligelig fordeling i Bewistat. Får vi dem derimod opgivet, er der tale om en specifik fordeling (se eksempler i opgave 13.6 for specifik og 13.7 for ligelig)

13.2 – Test for fordeling med estimerede parametre Hvis man ønsker at teste for fordelingen af den stokastiske variabel. Som regel antager man, at den stokastiske variabel følger en bestemt fordeling, men man kender ikke parametrene i fordelingen. Disse bestemmes derfor ud fra observationerne. Testen foregår som i test 13.1 ovenfor men med den modifikation, at antallet af frihedsgrader skal sænkes med én for hvert estimeret parameter. HUSK AT TRÆKKE EN FRIHEDSGRAD FRA FOR HVERT ESTIMERET PARAMETER, MAN SÆNKER (eks. hvis man har fra 0-5 antal kunder, men kunde fem har ikke tre observationer, og derfor lægger man kunde 4 og kunde 5 sammen. Så skal man sige: k −m−1=antal frihedsgrader ( 5−1−1=3 frihedsgrader i dette eksempel ) . (se eksempel 13.6 side 216/217). Definition/formel Hypotese

Beskrivelse/kommentar

H 0 : Fordelingen følges H 1 : Fordelingen følges ikke Eksempel:

H 0 : X er poisson−fordelt H 1 : X er ikke poission−fordelt Forudsætning

Vi har en stikprøve med N elementer, opdelt i k kategorier. Det observerede antal i hver kategori er Oi .

Alle observationer skal være større end tre. Er de mindre end tre, lægger man to kategorier sammen.

Vi vil teste, om ovennævnte følger en kendt fordeling, hvori vi skal estimere m parametre. Alle forventede værdier

Ei=N∗q i er større end 3 Ei >3  alle observationer i hver kategori skal være større end tre Teststørrelse

K

Q=∑ i=1

( O1−E i)

Det betyder egentlig bare:

2

Ei

2 er X ( k−m−1)− fordelt

Side 11 af 16

forventede 2 Det observerede−det ¿ ¿ ¿ ¿ Det sidste led viser beregningen af frihedsgrader. Forskellen kan man se ved, at man trækker m fra, hvor m er antal sænkede parametre (eks. hvis man slår to kategorier sammen til én. Så skal man sige k-1-1, hvor k er antal oprindelige kategorier). P-værdi Konklusion

p=P( X 2 ≥ Q) Hvis

P−værdi > signifikansniveau =H 0 accepte Bewistat: Igen bruger vi bewistat 4.3 Hvis vi for eksempel tester for poisson fordeling, bruger vi Bewistat 4.3.c Med eller uden intensitet POISSON: Hvis vi i opgaven får angivet, at vi skal teste med en bestemt intensitet, skal man selv skrive denne ind i Bewistat ved at vælge ”Explicitet lamdaværdi indtastes”. Får vi ikke en intensitet opgivet, skal vi afkrydse ”Beregn Lampda-estimat”. BINOMIAL – lille note: Vælg ”variabel intervalbredde” og ”uspecifik”, når vi taster ind i Bewistat med mindre, at andet er opgivet. Eksempel:

Side 12 af 16

Kapital 13.3 – Kontingenstabeller En population er ofte opdelt efter to kriterier, og kontingenstabeller bruges til at undersøge, om der er en sammenhæng mellem disse to opdelinger. Kontingenstabeller  se eksempel i tabel 13.17 og 13-18 side 226+227 (eller billedet længere nede i dette notat) Definition/formel Hypotese

Forudsætning

Beregning af det forventede (manuelt)

Teststørrelse

H 0 : Der er uafhængighed ( ingensammenhæng ) H 1 : Der er IKKE uafhængighed Uafhængighed = ingen forskel ikke uafhængighed = forskel Alle forventede værdier Eij er større end 3 .

Eij=N∗p i∗q j Vær opmærksom på, at dette blot er hvis vi bliver bedt om at lave tabellerne manuelt. Bewistat kan lave disse for os r

c

Q=∑ ∑ j=1

(

( Oij−Eij )

Eij (r−1 )( c−1 ) −fordelt 2 er X ¿ i=1

j

2

)

KOMMENTAR Hypotesen vil altid være opstillet på denne måde.

Hvis de forventede værdier er mindre end 3, skal to kategorier slås sammen (præcis som ved Goodness of fit) N = hele populationen

pi=i alt ( nedad i tabellen ) qi =ialt ( henad itabellen ) Se også tabel 13.15 for eksempel, hvis man er i tvivl Det betyder egentlig bare:

forventede 2 Det observerede−det ¿ ¿ ¿ ¿ Når man skal finde antal frihedsgrader (manuelt) tager man det sidste led: ((r1)(c-1), hvor r= antal rækker c=antal kolonner

P-værdi

P ( X 2 ≥Q ) Side 13 af 16

Konklusion Bewistat

P−værdi>signifikansniveau → vi accepterer H 0

Hvis vi accepterer H0, betyder det, at der IKKE er en sammenhæng.

Brug Bewistat 4.3.d  man markerer det observerede (OBS: TAG IKKE I ALT-VÆRDIERNE MED)  Hak ”medtag kritisk værdi” af  Overfør til ark Man får derefter hele beregningen med (både de observerede, det forventede, forskellen, teststørrelse, kritisk værdi samt p-værdi).

HVIS VI SKAL TESTE, OM EN STIKPRØVE ER REPRÆSENTATIV: Når vi er til eksamen, kan vi blive bedt om først at udregne, om en stikprøve er repræsentativ, før vi skal beregne, om der er en sammenhæng. Dette gøres gennem Bewistat 4.3.a. H 0 : Stikprøvener repræsentativ

H 1 : Stikprøvener IKKErepræsentativ

Dog skal man være opmærksom på, at Bewistat muligvis ikke vil lave beregningen. Hvis ikke den vil lave beregningen, skal man opstille sin tabel på en anden måde, således at de observerede værdier står nedad frem for henad (se opgave 3.1 for eksempel). Når tabellen er lavet, skal man tage stilling til, der er tale om specifik eller ligelig fordeling. Hvis der er fordelingstal opgivet i en opgavetekst, er der tale om specifik fordeling. Er der til gengæld ikke opgivet nogle tal, må vi antage, at der er tale om ligelig fordeling. (dette skal man taste ind, når man laver beregning under bewistat 4.3.a). Eksempel på udregning af specifik fordeling: I opgave 3.1 får vi oplyst, at 35.518 kunder er på ruten KBH-Tirstrup, mens 31.280 kunder til ruten KBH-Aalborg, og endeligt er 20.761 på ruten KBH-Karup. Når vi skal finde ud af, hvad fordelingen er, skal vi starte med at lægge de tre tal sammen (dvs. 87.559). Herefter tager vi 35.518/87.559 og får derved observationshyppigheden/fordelingen. VÆR OBS PÅ I BEWISTAT, AT OBSERVATIONSVÆRDIEN OG HYPPIGHEDEN SKAL STÅ VED SIDEN AF HINANDEN, FØR BEWISTAT VIL LAVE BEREGNINGEN. Hvis p-værdi > signifikansniveau  vi accepterer H0, og stikprøven er repræsentativ.

Side 14 af 16

Kapitel 14 – Stikprøveteori -

Når vi skal bestemme et konfidensinterval Allokering af stikprøver (Optimal og proportional) Punktestimat og fejlmargin

BEREGNING AF KONFIDENSINTERVAL Når vi skal beregne et konfidensinterval, anvender vi Bewistat 7a  Estimation Stratificeret = Der er lige mange i hver stikprøve, og vi kender N. (lige mange i hver kan f.eks. også være, hvis der er udtaget 2% i hver). ALLOKERING AF STIKPRØVER (PROPORTIONAL OG OPTIMAL) Når vi skal beregne, om stikprøver kunne allokeres/fordeles på bedre måder. Bewistat 7a  Allokering af stikprøver Proportional er ”lettest” for os at lave, da vi kun skal kende stratas, populationen og stratas stikprøvestørrelse. Ved den proportionale tager man stilling til stratas størrelse, hvor man ved den optimale også tager stilling til, hvor ens d...


Similar Free PDFs