Cheat sheat med R hjælp PDF

Title	Cheat sheat med R hjælp
Author	asd das
Course	Introduction to Statistics
Institution	Danmarks Tekniske Universitet
Pages	21
File Size	326.2 KB
File Type	PDF
Total Downloads	56
Total Views	474

Preview

CLICK TO PREVIEW PDF

Summary

02403 Cheat Sheet - 27. juni Mathias N Justesen 1 Deskriptiv statistik Indhold 1 Middelværdi 1 Varians 1 Kvartiler 2 Diskrete fordelinger 2 Middelærdi og varians 2 Binomialfordeling 2 Hypergeometrisk fordeling 2 Poissonfordeling 3 Kontinuerte fordelinger 3 Normalfordeling 3 Uniform fordeling 3 Log-n...

Description

02403 Cheat Sheet Mathias N Justesen 27. juni 2013

Indhold 1 Deskriptiv statistik 1.1 Middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Kvartiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 3 3

2 Diskrete fordelinger 2.1 Middelærdi og varians . . 2.2 Binomialfordeling . . . . . 2.3 Hypergeometrisk fordeling 2.4 Poissonfordeling . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

4 4 4 5

3 Kontinuerte fordelinger 3.1 Normalfordeling . . . . 3.2 Uniform fordeling . . . 3.3 Log-normal fordeling . 3.4 Eksponentialfordeling

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

6 6 6 7 7

. . . .

. . . .

4

4 Linearkombinationer af stokastiske variable 5 Middelværdi 5.1 Fejl og konfidensinterval 5.2 Hypotesetest . . . . . . 5.3 Sammenligning . . . . . 5.4 Parret test . . . . . . . .

3

8

9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 10 . . . . . . . . . . . . . . . . . . . . . . . 10

6 Varians 12 6.1 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.2 Sammenligning af varians . . . . . . . . . . . . . . . . . . . . . . 12 7 Proportioner 7.1 Binomialfordelt proportion . . . . . . . . . . . . . . . . . . . . . 7.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Sammenligning af to proportioner . . . . . . . . . . . . . . . . . . 7.4 Sammenligning af flere proportioner . . . . . . . . . . . . . . . . 7.5 r × c tabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Simulering

13 13 13 14 14 14 15

1

9 Lineær regression 16 9.1 Bestemmelse af ligningen . . . . . . . . . . . . . . . . . . . . . . 16 9.2 Teststørrelse og konfidensinterval for α og β . . . . . . . . . . . . 16 9.3 Konfidensinterval for α + βx0 . . . . . . . . . . . . . . . . . . . . 16 9.4 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 10 Variansanalyse 10.1 Envejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Hypotesetest og konfidensinterval . . . . . . . . . . . . . . 10.2 Tovejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . .

2

18 18 18 18 19 19 19

1

Deskriptiv statistik

1.1

Middelværdi x¯ =

Pn

i=1

xi

n

R > mean(x)

1.2

Varians s2 =

Pn

−x ¯)2 n−1

i=1 (xi

R > var(x)

1.3

Kvartiler

Beregn den pte kvartil: 1. Beregn produktet np 2. Hvis np ikke er et heltal, s˚ a rund op. Hvis k = np er et heltal, s˚ a tag gennemsnittet af den kte og den (k + 1)te observation. Q1 , Q2 , Q3 er hhv. den 25., 50., og 75. fraktil. R > quantile(x, p, type=2) Finder p-fraktilen som bogen. > summary(x) Giver Q1 , medianen og Q3 . Bemærk at R beregner fraktilerne anderledes end bogen!

3

2 2.1

Diskrete fordelinger Middelærdi og varians µ=

X

all x

σ2 =

x · f (x)

X (x − µ)2 · f (x)

all x

2.2

Binomialfordeling

Sandsynligheden for at f˚ a x succeser i n forsøg, hvor sandsynligheden for succes er p i hvert forsøg:   n x P (X = x) = b(x; n, p) = p (1 − p)n−x x = 0, 1, 2, ..., n x Kumuleret: P (X ≤ x) = B(x; n, p) = Middelværdi: µ = np Varians: σ 2 = np(1 − p)

x X

b(k; n, p)

k=0

R b(x; n, p) = dbinom(x, n, p) B(x; n, p) = pbinom(x, n, p) P (X ≤ x) = P ⇔ x = qbinom(P, n, p)

2.3

Hypergeometrisk fordeling

Af N elementer er a defekte. Vi udvælger n elementer. Sandsynligheden for at trække x defekte er s˚ a a N−a  x

P (X = x) = h(x; n, a, N ) =

Nn−x 

x = 0, 1, 2, ..., n

n

Kumuleret:

P (X ≤ x) = H (x; n, a, N ) = Middelværdi: µ = n aN  Varians: σ 2 = n Na 1 −

a N

  N−n  N−1

4

x X

k=0

h(k; n, a, N )

R h(x; n, a, N ) = choose(a, x) * choose(N-a, n-x) / choose(N, n) h(x; n, a, N ) = dhyper(x, a, N-a, n) H (x; n, a, N ) = phyper(x, a, N-a, n) P (X ≤ x) = P ⇔ x = qhyper(P, a, N-a, n)

2.4

Poissonfordeling

Ved α hændelser pr. tidsenhed, er sandsynligheden for x hændelser over en periode T givet ved P (X = x) = f (x; λ = αT ) =

λx e−λ x!

x = 0, 1, 2, ..., n

Kumuleret: P (X ≤ x) = F (x; λ = αT ) = Middelværdi: µ = λ Varians: σ 2 = λ R f (x; λ) = dpois(x, lambda) F (x; λ) = ppois(x, lambda) P (X ≤ x) = P ⇔ x = qpois(P, lambda)

5

x X

k=0

f (k; λ)

λ>0

3 3.1

Kontinuerte fordelinger Normalfordeling

Densitet:

2 2 1 f (x; µ, σ 2 ) = √ e−(x−µ) /2σ −∞ qqline(x)

3.2

Uniform fordeling

Densitet: f (x; α, β) =

(

1 β−α

0

α 0 andetsteds

2

Middelværdi: µ = eα+β /2 2 2 Varians: σ 2 = e2α+β (eβ − 1) R f (x; α, β) = dlnorm(x, alpha, beta) F (x; α, β) = plnorm(x, alpha, beta) P (X ≤ x) = P ⇔ x = qlnorm(P, alpha, beta)

3.4

Eksponentialfordeling

Densitet: f (x; β) =

(

1 −x/β e β

x > 0, β > 0

0

andetsteds

Middelværdi: µ = β Varians: σ 2 = β 2 For en Poisson proces, hvor der er α succeser pr. tid, s˚ a er ventetiden mellem disse succeser eksponentialfordelt, hvor β = 1/α. R f (x; β) = dexp(x, 1/beta) F (x; β) = pexp(x, 1/beta) P (X ≤ x) = P ⇔ x = qunif(P, 1/beta) Bemærk at R anvender

1 ! β

7

4

Linearkombinationer af stokastiske variable

Regneregler: E(aX + b) = aE (X) + b V ar (aX + b) = a2 V ar (X) Eksempler: E (2X − Y + 5) = 2E (X) − E(Y ) + 5

V ar(2X − Y + 5) = 22 V ar(X) + (−1)2 V ar (Y ) = 4V ar (X) + V ar (Y ) ⇒ σ 2 = 4σ X + σ Y √ ⇒ σ = 4σ X + σ Y

8

5 5.1

Middelværdi Fejl og konfidensinterval

Central grænseværdi:

¯ −µ X √ σ/ n

Z=

Ved ukendt varians med n − 1 frihedsgrader: t=

X¯ − µ √ S/ n

Maksimal fejl p˚ a estimat: ¯ − µ| = zα/2 √σ E = |X n ¯ − µ| = tα/2 √s E = |X n Størrelse af stikprøve, s˚ a E er bestemt (rund op): n= Konfidensinterval:

z

α/2 σ

E

2

σ σ x¯ − zα/2 √ < µ < x¯ + zα/2 √ n n s s x¯ − tα/2 √ < µ < x¯ + tα/2 √ n n

R zα = qnorm(1-alpha) tα = qt(1-alpha, df) t.test(x, mu=0, conf.level=0.95)

5.2

Hypotesetest

Teststørrelse: Z=

X¯ − µ0 √ σ/ n

t=

¯ − µ0 X √ S/ n

R > t.test(x, mu=0, alt="two.sided", conf.level=0.95)

9

5.3

Sammenligning

Teststørrelse: 1. n1 , n2 ≥ 30, σ 1 6= σ 2 : Z= p

¯ − Y¯ − δ X S12 /n1 + S22 /n2

2. n1 , n2 < 30, σ 1 = σ 2 , (n1 + n2 − 2 frihedsgrader): ¯ − Y¯ − δ X p t= Sp 1/n1 + 1/n2

3. n1 , n2 < 30, σ 1 6= σ 2 (estimerede frihedsgrader, se side 256): ¯ − Y¯ − δ X t′ = p 2 S1 /n1 + S22 /n2

hvor δ = µ1 − µ2 , og Sp (bemærk i anden potens): Sp2 =

(n1 − 1)S12 + (n2 − 1)S 22 n1 + n2 − 2

Konfidensinterval for µ1 − µ2 (frihedsgrader som teststørrelsen): q x¯ − y¯ ± zα/2 s21 /n1 + s22/n2 s (n1 − 1)s12 + (n2 − 1)s22 p 1/n1 + 1/n2 x¯ − y¯ ± tα/2 n1 + n2 − 2 q x¯ − y¯ ± tα/2 s12 /n1 + s22 /n2 R > t.test(x, y, mu=0, alt="two.sided", var.equal=F, conf.level=0.95) Bemærk at for tosidede tests er mu = µ1 − µ2 = δ, samt at vi som regel antager ens varians (alts˚ a modsat default), var.equal=T.

5.4

Parret test

Teststørrelse med n − 1 = n1 − 1 = n2 − 1 frihedsgrader: ¯ − µD,0 D √ t= SD / n hvor

S 2D

Di = Xi − Yi P2 i=1 Di ¯ D= n P2 ¯ 2 (D i − D) = i=1 n−1 10

R > t.test(x, y, mu=0, alt="two.sided", conf.level=0.95, paired=T) Bemærk at mu nu er µD,0 .

11

6

Varians

6.1

Hypotesetest

Konfidensinterval med n − 1 frihedsgrader: (n − 1)s2 (n − 1)s2 < σ2 < 2 2 χ α/2 χ1−α/2 s

(n − 1)s2

σ22

F =

6=

σ22

F =

S22 S 21 S12 S 22 S 2M 2 Sm

Forkast H0 hvis... F > Fα (n2 − 1, n1 − 1) F > Fα (n1 − 1, n2 − 1) F > Fα/2 (nM − 1, nm − 1)

R P (X ≤ x) = pf(x, df1, df2) Fα = qf(1-alpha, df1, df2) Bemærk alts˚ a at F0.01 findes ved qf(0.99, df1, df2).

12

7 7.1

Proportioner Binomialfordelt proportion

Konfidensinterval: x − zα/2 n

r

x/n(1 − x/n) x < p < + zα/2 n n

r

x/n(1 − x/n) n

Maksimal fejl p˚ a estimat: E = zα/2

r

p(1 − p) n

Størrelse af stikprøve, s˚ a E er bestemt ved kendt p (rund op): n = p(1 − p)

z

α/2

E

2

Størrelse af stikprøve, s˚ a E er bestemt ved ukendt p (rund op): n=

 1 zα/2 2 4 E

R > prop.test(x, n, correct=T) Bemærk at for at konfidensintervallet skal ligne det, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme).

7.2

Hypotesetest

Teststørrelse: Z= p

X − np0

np0 (1 − p0 )

R prop.test(x, n, p, correct=T, alternative="two.sided") Bemærk at for at teststørrelsen skal ligne den, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme). Bemærk ydermere at dette giver χ2 = Z 2 og alts˚ a ikke Z, s˚ a tag kvadratroden.

13

7.3

Sammenligning af to proportioner

Konfidensinterval: x2 x1 ± zα/2 − n2 n1

s

x1 /n1 (1 − x1 /n1 ) x2 /n2 (1 − x2 /n2 ) + n2 n1

Teststørrelse: Z= p

X1 /n1 − X2 /n2

pˆ(1 − pˆ)(1/n1 + 1/n2 ) pˆ =

X 1 + X2 n1 + n2

hvor Z 2 = χ2 som vi skal se nedenfor.

7.4

Sammenligning af flere proportioner

Teststørrelse: χ2 =

2 k X X (oij − eij )2 eij i=1 j=1

R > prop.test(x, x+y) > chisq.test(data.frame(x, y)) Disse to skulle give samme resultat. Rnoterne anvender førstnævnte og bogen sidstnævnte.

7.5

r × c tabeller

Teststørrelse: χ2 =

r X c X (oij − eij )2 eij i=1 j=1

hvor eij =

(ith row total) × (jth column total) grand total

Den kritiske værdi er χ2α ((r − 1)(c − 1)). R 2 χα ((r − 1)(c − 1)) = qchisq(1-alpha, (r-1)*(c-1))

chisq.test(matrix(c(x, y, z),ncol=k), correct=TRUE) hvor k er antallet af vektorer i matricen. Sæt correct=FALSE hvis det ønskes som i bogen. 14

8

Simulering

Ved ikke-lineære sammenhænge mellem stokastiske variable f (X1 , X2 , ...Xn ) kan den samlede varians estimeres ved:  n  X df 2 2 σf2 ≈ σi dXi i=1

15

9

Lineær regression

Om residualerne i en regression antages at de er normalfordelte med middelværdi 0 og en bestemt varians.

9.1

Bestemmelse af ligningen

Lineær regressionskurve: Y = α + βx + ǫ Mindste kvadraters metode minimerer summen af de kvadrerede residualer (ei ): y = a + bxi + ei Sxy Sxx a = y¯ − b¯ x b=

Andre størrelser: Sxx =

n X i=1

Syy =

n X

i=1

Sxy =

(xi − x¯)2 = (n − 1)σ x2 (yi − y¯)2 = (n − 1)σ 2y

n X (xi − x¯)(yi − y¯) i=1

9.2

Teststørrelse og konfidensinterval for α og β

Teststørrelse for α og β med n − 2 frihedsgrader: r a−α nSxx t= Sxx + n¯ x2 se t=

b − βp Sxx se

hvor se er givet ved (bemærk kvadreret): σ ˆ 2 = se2 =

n Syy − S 2xy /Sxx 1 X 2 ei = n − 2 i=1 n−2

Konfidensintervaller for α og β med (n − 2) frihedsgrader: s x¯2 1 + α : a ± tα/2 se n Sxx r 1 β : b ± tα/2 se Sxx 16

9.3

Konfidensinterval for α + βx0

Konfidensinterval med n − 2 frihedsgrader: s (x0 − x¯)2 1 + a + bx0 ± tα/2 se n Sxx Forudsigelse af fremtidig Y med n − 2 frihedsgrader: s 1 (x0 − x¯)2 a + bx0 ± tα/2 se 1 + + n Sxx

9.4

Korrelation

Korrelationskoefficient: r=p

Sxy SxxSyy

Forklaringsgraden r2 er andelen af y afvigelsen der kan tilskrives den lineære sammenhæng. S˚ a hvis r2 = 0.78, s˚ a kan 78% af y-værdien tilskrives den lineære sammenhæng, og de sidste 20% m˚ a s˚ a tilskrives datafejl. R Scatter-plot af y som funktion af x: > plot(y~x) One command to rule them all... > summary(lm(y~x)) Eksempel: > x = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) > y = c(16, 35, 45, 64, 86, 96, 106, 124, 134, 156, 164, 182) > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q -3.8030 -3.2121

Median 0.1061

3Q 1.5152

Max 7.5606

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.3485 2.2440 1.938 0.0814 . x 14.8182 0.3049 48.600 3.28e-13 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 17

Residual standard error: 3.646 on 10 degrees of freedom Multiple R-squared: 0.9958,Adjusted R-squared: 0.9954 F-statistic: 2362 on 1 and 10 DF, p-value: 3.283e-13 yˆ = 4.3482 + 14.8182x se = 3.646 r2 = 0.9958 α ± tα/2 2.2440 β ± tα/2 0.3049 For hældningen ses, at p-værdien er meget lav, ergo er det meget sandsynligt at β 6= 0. Derimod er der større usikkerhed omkring α, da p-værdien er 0.08.

18

10

Variansanalyse

Data skal være normalfordelt inden for hver gruppe, uafhængige og varianserne for hver gruppe m˚ a ikke afvige signikant fra hinanden.

10.1

Envejs variansanalyse

10.1.1

Nøgletal og model SS(T r) =

k X i=1

SSE =

ni (¯ yi − y¯)2

k X ni X i=1 j=1

k

SST =

(yij − y¯i )2

ni

XX

i=1 j=1

(yij − y¯)2 = SSE + SS(T r)

Model for envejs variansanalyse: Yij = µ + αi + ǫij hvor µ ˆ = y¯, α ˆ i = y¯i − y¯ og ǫˆij = yij − y¯i . 10.1.2

Hypotesetest og konfidensinterval H0 : αi = 0, H1 : αi 6= 0

for alle i. Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Residual Total

Frihedsgrader k−1 N −k N −1

Kvadratsummer SS(T r) SSE SST

Mean square r) M S(T r) = SS(T k−1 SSE M SE = N −k

Teststørrelse r) F = MS(T MSE

F er alts˚ a teststørrelsen med (k − 1, N − k) frihedsgrader. H0 forkastes, hvis F > Fα . Post hoc konfidensinterval med N − k frihedsgrader (hvordan er to grupper forskellige fra hinanden): p y¯1 − y¯2 ± tα/2 s2 (1/n1 + 1/n2 ) hvor σ ˆ 2 = s2 = M SE med N − k frihedsgrader.

19

R Variansanalysetabel (ANOVA-tabel): > anova(lm(data~treatment))

10.2 10.2.1

Tovejs variansanalyse Nøgletal og model a X

b(¯ yi· − y¯·· )2

b X

a(y·j − y¯·· )2

SS(T r) =

i=1

SS(Bl) =

j=1

SST =

k X ni X i=1 j=1

(yij − y¯·· )2

SSE = SST − SS (T r) − SS (Bl) Model for tovejs variansanalyse: Yij = µ + αi + βj + ǫij hvor µ ˆ = y¯, α ˆ i = y¯i − y¯, βˆj = y¯j − y¯ og ǫˆij = yij − y¯i . 10.2.2

Hypotesetest

Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Blokke Residual Total

Frihedsgrader a−1 b−1 (a − 1)(b − 1) ab − 1

Kvadratsummer SS(T r) SS(Bl) SSE SST

Mean square r) M S(T r) = SS(T a−1 SS (Bl) M S(Bl) = b−1 SSE M SE = (a−1)( b−1)

Teststørrelse r) FT r = MS(T MSE FBl =

F er alts˚ a teststørrelsen med (k − 1, N − k) frihedsgrader. H0 forkastes, hvis F > Fα . R Variansanalysetabel (ANOVA-tabel): > > > > >

y = c(13,7,9,3,6,6,3,1,11,5,15,5) treatm = c(1,1,1,1,2,2,2,2,3,3,3,3) block = c(1,2,3,4,1,2,3,4,1,2,3,4) example attach(example) > treatm block anova(lm(y~treatm+block)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 2 56 28.0000 3.2308 0.11162 block 3 90 30.0000 3.4615 0.09138 . Residuals 6 52 8.6667 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

21...