Cheatsheet - statistik PDF

Title Cheatsheet - statistik
Author AbdulXD
Course Statistik
Institution Danmarks Tekniske Universitet
Pages 21
File Size 348.7 KB
File Type PDF
Total Downloads 135
Total Views 271

Summary

02403 Cheat Sheet - 27. juni Mathias N Justesen 1 Deskriptiv statistik Indhold 1 Middelværdi 1 Varians 1 Kvartiler 2 Diskrete fordelinger 2 Middelærdi og varians 2 Binomialfordeling 2 Hypergeometrisk fordeling 2 Poissonfordeling 3 Kontinuerte fordelinger 3 Normalfordeling 3 Uniform fordeling 3 Log-n...


Description

02403 Cheat Sheet Mathias N Justesen 27. juni 2013

Indhold 1 Deskriptiv statistik 1.1 Middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Kvartiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 3 3

2 Diskrete fordelinger 2.1 Middelærdi og varians . . 2.2 Binomialfordeling . . . . . 2.3 Hypergeometrisk fordeling 2.4 Poissonfordeling . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 4 4 4 5

3 Kontinuerte fordelinger 3.1 Normalfordeling . . . . 3.2 Uniform fordeling . . . 3.3 Log-normal fordeling . 3.4 Eksponentialfordeling

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

6 6 6 7 7

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Linearkombinationer af stokastiske variable 5 Middelværdi 5.1 Fejl og konfidensinterval 5.2 Hypotesetest . . . . . . 5.3 Sammenligning . . . . . 5.4 Parret test . . . . . . . .

3

8

9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 10 . . . . . . . . . . . . . . . . . . . . . . . 10

6 Varians 12 6.1 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.2 Sammenligning af varians . . . . . . . . . . . . . . . . . . . . . . 12 7 Proportioner 7.1 Binomialfordelt proportion . . . . . . . . . . . . . . . . . . . . . 7.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Sammenligning af to proportioner . . . . . . . . . . . . . . . . . . 7.4 Sammenligning af flere proportioner . . . . . . . . . . . . . . . . 7.5 r ⇥ c tabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Simulering

13 13 13 14 14 14 15

1

9 Lineær regression 16 9.1 Bestemmelse af ligningen . . . . . . . . . . . . . . . . . . . . . . 16 9.2 Teststørrelse og konfidensinterval for ↵ og  . . . . . . . . . . . . 16 9.3 Konfidensinterval for ↵ + x0 . . . . . . . . . . . . . . . . . . . . 16 9.4 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 10 Variansanalyse 10.1 Envejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Hypotesetest og konfidensinterval . . . . . . . . . . . . . . 10.2 Tovejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . .

2

18 18 18 18 19 19 19

1

Deskriptiv statistik

1.1

Middelværdi x¯ =

Pn

i=1

xi

n

R > mean(x)

1.2

Varians s2 =

Pn

x ¯)2 n1

i=1 (xi

R > var(x)

1.3

Kvartiler

Beregn den pte kvartil: 1. Beregn produktet np 2. Hvis np ikke er et heltal, s˚ a rund op. Hvis k = np er et heltal, s˚ a tag gennemsnittet af den kte og den (k + 1)te observation. Q1 , Q2 , Q3 er hhv. den 25., 50., og 75. fraktil. R > quantile(x, p, type=2) Finder p-fraktilen som bogen. > summary(x) Giver Q1 , medianen og Q3 . Bemærk at R beregner fraktilerne anderledes end bogen!

3

2 2.1

Diskrete fordelinger Middelærdi og varians µ=

X

x · f (x)

all x

2 =

X

(x  µ)2 · f (x)

all x

2.2

Binomialfordeling

Sandsynligheden for at f˚ a x succeser i n forsøg, hvor sandsynligheden for succes er p i hvert forsøg: ✓ ◆ n x p (1  p)nx x = 0, 1, 2, ..., n P (X = x) = b(x; n, p) = x Kumuleret: P (X  x) = B(x; n, p) = Middelværdi: µ = np Varians:  2 = np(1  p)

x X

b(k; n, p)

k=0

R b(x; n, p) = dbinom(x, n, p) B(x; n, p) = pbinom(x, n, p) P (X  x) = P , x = qbinom(P, n, p)

2.3

Hypergeometrisk fordeling

Af N elementer er a defekte. Vi udvælger n elementer. Sandsynligheden for at trække x defekte er s˚ a a N a  x

P (X = x) = h(x; n, a, N ) =

Nnx 

x = 0, 1, 2, ..., n

n

Kumuleret:

P (X  x) = H (x; n, a, N ) = Middelværdi: µ = n aN  a 1 Varians:  2 = n N

a N

 ⇣ N n ⌘ N 1

4

x X

k=0

h(k; n, a, N )

R h(x; n, a, N ) = choose(a, x) * choose(N-a, n-x) / choose(N, n) h(x; n, a, N ) = dhyper(x, a, N-a, n) H (x; n, a, N ) = phyper(x, a, N-a, n) P (X  x) = P , x = qhyper(P, a, N-a, n)

2.4

Poissonfordeling

Ved ↵ hændelser pr. tidsenhed, er sandsynligheden for x hændelser over en periode T givet ved P (X = x) = f (x;  = ↵T ) =

x eλ x!

x = 0, 1, 2, ..., n

Kumuleret: P (X  x) = F (x;  = ↵T ) = Middelværdi: µ =  Varians:  2 =  R f (x; ) = dpois(x, lambda) F (x; ) = ppois(x, lambda) P (X  x) = P , x = qpois(P, lambda)

5

x X

k=0

f (k; )

>0

3 3.1

Kontinuerte fordelinger Normalfordeling

Densitet:

2 2 1 f (x; µ,  2 ) = p e(xµ) /2σ 1 qqline(x)

3.2

Uniform fordeling

Densitet: f (x; ↵, ) =

(

1 βα

0

↵ 0 andetsteds

2

Middelværdi: µ = eα+β /2 2 2 Varians:  2 = e2α+β (eβ  1) R f (x; ↵, ) = dlnorm(x, alpha, beta) F (x; ↵, ) = plnorm(x, alpha, beta) P (X  x) = P , x = qlnorm(P, alpha, beta)

3.4

Eksponentialfordeling

Densitet: f (x; ) =

(

1 x/β e β

0

x > 0,  > 0 andetsteds

Middelværdi: µ =  Varians:  2 =  2 For en Poisson proces, hvor der er ↵ succeser pr. tid, s˚ a er ventetiden mellem disse succeser eksponentialfordelt, hvor  = 1/↵. R f (x; ) = dexp(x, 1/beta) F (x; ) = pexp(x, 1/beta) P (X  x) = P , x = qunif(P, 1/beta) Bemærk at R anvender

1 ! β

7

4

Linearkombinationer af stokastiske variable

Regneregler: E(aX + b) = aE(X) + b V ar(aX + b) = a2 V ar(X) Eksempler: E (2X  Y + 5) = 2E (X)  E (Y ) + 5

V ar(2X  Y + 5) = 22 V ar(X) + (1)2 V ar(Y ) = 4V ar(X) + V ar(Y ) )  2 = 4X + Y p )  = 4X + Y

8

5 5.1

Middelværdi Fejl og konfidensinterval

Central grænseværdi:

¯ µ X p / n

Z=

Ved ukendt varians med n  1 frihedsgrader: t=

X¯  µ p S/ n

Maksimal fejl p˚ a estimat:  ¯  µ| = z E = |X α/2 p n ¯  µ| = tα/2 ps E = |X n Størrelse af stikprøve, s˚ a E er bestemt (rund op): n= Konfidensinterval:

⇣z

α/2 

E

⌘2

  x¯  zα/2 p < µ < x ¯ + zα/2 p n n s s ¯ + tα/2 p x¯  tα/2 p < µ < x n n

R zα = qnorm(1-alpha) tα = qt(1-alpha, df) t.test(x, mu=0, conf.level=0.95)

5.2

Hypotesetest

Teststørrelse: Z=

X¯  µ0 p / n

t=

¯  µ0 X p S/ n

R > t.test(x, mu=0, alt="two.sided", conf.level=0.95)

9

5.3

Sammenligning

Teststørrelse: 1. n1 , n 2  30, 1 6= 2 : Z= p

¯  Y¯   X 2 S1 /n1 + S 22 /n2

2. n1 , n 2 < 30, 1 = 2 , (n1 + n2  2 frihedsgrader): ¯  Y¯   X t= p Sp 1/n1 + 1/n2

3. n1 , n 2 < 30, 1 6= 2 (estimerede frihedsgrader, se side 256): ¯  Y¯   X t0 = p 2 S1 /n1 + S 22 /n2

hvor  = µ1  µ2 , og Sp (bemærk i anden potens): Sp2 =

(n1  1)S 21 + (n2  1)S 22 n1 + n2  2

Konfidensinterval for µ1  µ2 (frihedsgrader som teststørrelsen): q x¯  y¯ ± zα/2 s21 /n1 + s22/n2 s (n1  1)s12 + (n2  1)s22 p x¯  y¯ ± tα/2 1/n1 + 1/n2 n1 + n2  2 q x¯  y¯ ± tα/2 s12 /n1 + s22/n2 R > t.test(x, y, mu=0, alt="two.sided", var.equal=F, conf.level=0.95) Bemærk at for tosidede tests er mu = µ1  µ2 = , samt at vi som regel antager ens varians (alts˚ a modsat default), var.equal=T.

5.4

Parret test

Teststørrelse med n  1 = n1  1 = n2  1 frihedsgrader: ¯  µD,0 D t= p SD / n hvor

S 2D

Di = Xi  Yi P2 i=1 Di ¯= D n P2 ¯ 2 (D i  D) = i=1 n1 10

R > t.test(x, y, mu=0, alt="two.sided", conf.level=0.95, paired=T) Bemærk at mu nu er µD,0 .

11

6

Varians

6.1

Hypotesetest

Konfidensinterval med n  1 frihedsgrader: (n  1)s2 (n  1)s2 < 2 < 2 2 1α/2  α/2 s

(n  1)s2

22

F

6=

 22

F

S2 = S22 1 S2 = S21 2 S2 = S2M m

Forkast H0 hvis... F > Fα (n2  1, n1  1)

F > Fα (n1  1, n2  1)

F > Fα/2 (nM  1, nm  1)

R P (X  x) = pf(x, df1, df2) Fα = qf(1-alpha, df1, df2) Bemærk alts˚ a at F0.01 findes ved qf(0.99, df1, df2).

12

7 7.1

Proportioner Binomialfordelt proportion

Konfidensinterval: x  zα/2 n

r

x x/n(1  x/n) < p < + zα/2 n n

r

x/n(1  x/n) n

Maksimal fejl p˚ a estimat: E = zα/2

r

p(1  p) n

Størrelse af stikprøve, s˚ a E er bestemt ved kendt p (rund op): n = p(1  p)

⇣z

α/2

E

⌘2

Størrelse af stikprøve, s˚ a E er bestemt ved ukendt p (rund op): n=

1 ⇣ zα/2 ⌘2 E 4

R > prop.test(x, n, correct=T) Bemærk at for at konfidensintervallet skal ligne det, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme).

7.2

Hypotesetest

Teststørrelse: Z= p

X  np0

np0 (1  p0 )

R prop.test(x, n, p, correct=T, alternative="two.sided") Bemærk at for at teststørrelsen skal ligne den, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme). Bemærk ydermere at dette giver 2 = Z 2 og alts˚ a ikke Z, s˚ a tag kvadratroden.

13

7.3

Sammenligning af to proportioner

Konfidensinterval: x2 x1  ± zα/2 n1 n2

s

x1 /n1 (1  x1 /n1 ) x2 /n2 (1  x2 /n2 ) + n2 n1

Teststørrelse: Z= p

X1 /n1  X2 /n2

pˆ(1  pˆ)(1/n1 + 1/n2 ) pˆ =

X1 + X2 n1 + n2

hvor Z 2 = 2 som vi skal se nedenfor.

7.4

Sammenligning af flere proportioner

Teststørrelse: 2 =

2 X k X (oij  eij )2 eij i=1 j=1

R > prop.test(x, x+y) > chisq.test(data.frame(x, y)) Disse to skulle give samme resultat. Rnoterne anvender førstnævnte og bogen sidstnævnte.

7.5

r ⇥ c tabeller

Teststørrelse: 2 =

r X c X (oij  eij )2 eij i=1 j=1

hvor eij =

(ith row total) ⇥ (jth column total) grand total

Den kritiske værdi er 2α ((r  1)(c  1)). R α2 ((r  1)(c  1)) = qchisq(1-alpha, (r-1)*(c-1)) chisq.test(matrix(c(x, y, z),ncol=k), correct=TRUE) hvor k er antallet af vektorer i matricen. Sæt correct=FALSE hvis det ønskes som i bogen. 14

8

Simulering

Ved ikke-lineære sammenhænge mellem stokastiske variable f (X1 , X2 , ...Xn ) kan den samlede varians estimeres ved: ◆ n ✓ X df 2 2 i f2 ⇡ dXi i=1

15

9

Lineær regression

Om residualerne i en regression antages at de er normalfordelte med middelværdi 0 og en bestemt varians.

9.1

Bestemmelse af ligningen

Lineær regressionskurve: Y = ↵ + x + ✏ Mindste kvadraters metode minimerer summen af de kvadrerede residualer (ei ): y = a + bxi + ei b=

Sxy Sxx

a = y¯  b¯ x

Andre størrelser:

n X

Sxx =

i=1

Syy =

n X

i=1

Sxy =

(xi  x¯)2 = (n  1) 2x (yi  y¯)2 = (n  1) 2y

n X (xi  x¯)(yi  y¯) i=1

9.2

Teststørrelse og konfidensinterval for α og β

Teststørrelse for ↵ og  med n  2 frihedsgrader: r nSxx a↵ t= Sxx + n¯ x2 se t=

b  p Sxx se

hvor se er givet ved (bemærk kvadreret):  ˆ 2 = s2e =

n 1 X 2 Syy  S 2xy /Sxx ei = n2 n2 i=1

Konfidensintervaller for ↵ og  med (n  2) frihedsgrader: s x¯2 1 + ↵ : a ± tα/2 se n Sxx r 1  : b ± tα/2 se Sxx 16

9.3

Konfidensinterval for α + βx0

Konfidensinterval med n  2 frihedsgrader: s 1 (x0  x¯)2 a + bx0 ± tα/2 se + n Sxx Forudsigelse af fremtidig Y med n  2 frihedsgrader: s 1 (x  x¯)2 a + bx0 ± tα/2 se 1 + + 0 n Sxx

9.4

Korrelation

Korrelationskoefficient: r=p

Sxy SxxSyy

Forklaringsgraden r2 er andelen af y afvigelsen der kan tilskrives den lineære sammenhæng. S˚ a hvis r2 = 0.78, s˚ a kan 78% af y-værdien tilskrives den lineære sammenhæng, og de sidste 20% m˚ a s˚ a tilskrives datafejl. R Scatter-plot af y som funktion af x: > plot(y~x) One command to rule them all... > summary(lm(y~x)) Eksempel: > x = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) > y = c(16, 35, 45, 64, 86, 96, 106, 124, 134, 156, 164, 182) > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q -3.8030 -3.2121

Median 0.1061

3Q 1.5152

Max 7.5606

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.3485 2.2440 1.938 0.0814 . x 14.8182 0.3049 48.600 3.28e-13 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 17

Residual standard error: 3.646 on 10 degrees of freedom Multiple R-squared: 0.9958,Adjusted R-squared: 0.9954 F-statistic: 2362 on 1 and 10 DF, p-value: 3.283e-13 yˆ = 4.3482 + 14.8182x se = 3.646 r2 = 0.9958 ↵ ± tα/2 2.2440  ± tα/2 0.3049 For hældningen ses, at p-værdien er meget lav, ergo er det meget sandsynligt at  6= 0. Derimod er der større usikkerhed omkring ↵, da p-værdien er 0.08.

18

10

Variansanalyse

Data skal være normalfordelt inden for hver gruppe, uafhængige og varianserne for hver gruppe m˚ a ikke afvige signikant fra hinanden.

10.1

Envejs variansanalyse

10.1.1

Nøgletal og model SS(T r) =

k X i=1

k

SSE =

ni (¯ yi  y¯)2

ni XX (yij  y¯i )2 i=1 j=1

SST =

k X ni X

i=1 j=1

(yij  y¯)2 = SSE + SS(T r)

Model for envejs variansanalyse: Yij = µ + ↵i + ✏ij hvor µˆ = y¯, ↵ ˆ i = y¯i  y¯ og ˆ✏ij = yij  y¯i . 10.1.2

Hypotesetest og konfidensinterval H0 : ↵i = 0, H 1 : ↵i 6= 0

for alle i. Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Residual Total

Frihedsgrader k1 N k N 1

Kvadratsummer SS(T r) SSE SST

Mean square r) M S(T r) = SS(T k1 SSE M SE = N k

Teststørrelse r) F = MS(T MSE

F er alts˚ a teststørrelsen med (k  1, N  k) frihedsgrader. H0 forkastes, hvis F > Fα. Post hoc konfidensinterval med N  k frihedsgrader (hvordan er to grupper forskellige fra hinanden): p y¯1  y¯2 ± tα/2 s2 (1/n1 + 1/n2 ) hvor ˆ 2 = s2 = M SE med N  k frihedsgrader.

19

R Variansanalysetabel (ANOVA-tabel): > anova(lm(data~treatment))

10.2 10.2.1

Tovejs variansanalyse Nøgletal og model a X

b(¯ yi·  y¯·· )2

b X

a(y·j  y¯·· )2

SS(T r) =

i=1

SS(Bl) =

j=1

k

SST =

ni XX i=1 j=1

(yij  y¯·· )2

SSE = SST  SS(T r)  SS(Bl)

Model for tovejs variansanalyse:

Yij = µ + ↵i + j + ✏ij ˆj = y¯j  y¯ og ˆ✏ij = yij  y¯i . hvor µˆ = y¯, ↵ ˆ i = y¯i  y¯,  10.2.2

Hypotesetest

Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Blokke Residual Total

Frihedsgrader a1 b1 (a  1)(b  1) ab  1

Kvadratsummer SS(T r) SS(Bl) SSE SST

Mean square r) M S(T r) = SS(T a1 SS(Bl) M S(Bl) = b1 SSE M SE = (a1)( b1)

Teststørrelse r) FT r = MS(T MSE MS(Bl) FBl = MSE

F er alts˚ a teststørrelsen med (k  1, N  k) frihedsgrader. H0 forkastes, hvis F > Fα. R Variansanalysetabel (ANOVA-tabel): > > > > >

y = c(13,7,9,3,6,6,3,1,11,5,15,5) treatm = c(1,1,1,1,2,2,2,2,3,3,3,3) block = c(1,2,3,4,1,2,3,4,1,2,3,4) example attach(example) > treatm block anova(lm(y~treatm+block)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 2 56 28.0000 3.2308 0.11162 block 3 90 30.0000 3.4615 0.09138 . Residuals 6 52 8.6667 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

21...


Similar Free PDFs