Title | Cheat sheat med R hjælp |
---|---|
Author | asd das |
Course | Introduction to Statistics |
Institution | Danmarks Tekniske Universitet |
Pages | 21 |
File Size | 326.2 KB |
File Type | |
Total Downloads | 56 |
Total Views | 474 |
02403 Cheat Sheet - 27. juni Mathias N Justesen 1 Deskriptiv statistik Indhold 1 Middelværdi 1 Varians 1 Kvartiler 2 Diskrete fordelinger 2 Middelærdi og varians 2 Binomialfordeling 2 Hypergeometrisk fordeling 2 Poissonfordeling 3 Kontinuerte fordelinger 3 Normalfordeling 3 Uniform fordeling 3 Log-n...
02403 Cheat Sheet Mathias N Justesen 27. juni 2013
Indhold 1 Deskriptiv statistik 1.1 Middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Kvartiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 3
2 Diskrete fordelinger 2.1 Middelærdi og varians . . 2.2 Binomialfordeling . . . . . 2.3 Hypergeometrisk fordeling 2.4 Poissonfordeling . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
4 4 4 5
3 Kontinuerte fordelinger 3.1 Normalfordeling . . . . 3.2 Uniform fordeling . . . 3.3 Log-normal fordeling . 3.4 Eksponentialfordeling
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
6 6 6 7 7
. . . .
. . . .
4
4 Linearkombinationer af stokastiske variable 5 Middelværdi 5.1 Fejl og konfidensinterval 5.2 Hypotesetest . . . . . . 5.3 Sammenligning . . . . . 5.4 Parret test . . . . . . . .
3
8
9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 10 . . . . . . . . . . . . . . . . . . . . . . . 10
6 Varians 12 6.1 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.2 Sammenligning af varians . . . . . . . . . . . . . . . . . . . . . . 12 7 Proportioner 7.1 Binomialfordelt proportion . . . . . . . . . . . . . . . . . . . . . 7.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Sammenligning af to proportioner . . . . . . . . . . . . . . . . . . 7.4 Sammenligning af flere proportioner . . . . . . . . . . . . . . . . 7.5 r × c tabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Simulering
13 13 13 14 14 14 15
1
9 Lineær regression 16 9.1 Bestemmelse af ligningen . . . . . . . . . . . . . . . . . . . . . . 16 9.2 Teststørrelse og konfidensinterval for α og β . . . . . . . . . . . . 16 9.3 Konfidensinterval for α + βx0 . . . . . . . . . . . . . . . . . . . . 16 9.4 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 10 Variansanalyse 10.1 Envejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Hypotesetest og konfidensinterval . . . . . . . . . . . . . . 10.2 Tovejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . .
2
18 18 18 18 19 19 19
1
Deskriptiv statistik
1.1
Middelværdi x¯ =
Pn
i=1
xi
n
R > mean(x)
1.2
Varians s2 =
Pn
−x ¯)2 n−1
i=1 (xi
R > var(x)
1.3
Kvartiler
Beregn den pte kvartil: 1. Beregn produktet np 2. Hvis np ikke er et heltal, s˚ a rund op. Hvis k = np er et heltal, s˚ a tag gennemsnittet af den kte og den (k + 1)te observation. Q1 , Q2 , Q3 er hhv. den 25., 50., og 75. fraktil. R > quantile(x, p, type=2) Finder p-fraktilen som bogen. > summary(x) Giver Q1 , medianen og Q3 . Bemærk at R beregner fraktilerne anderledes end bogen!
3
2 2.1
Diskrete fordelinger Middelærdi og varians µ=
X
all x
σ2 =
x · f (x)
X (x − µ)2 · f (x)
all x
2.2
Binomialfordeling
Sandsynligheden for at f˚ a x succeser i n forsøg, hvor sandsynligheden for succes er p i hvert forsøg: n x P (X = x) = b(x; n, p) = p (1 − p)n−x x = 0, 1, 2, ..., n x Kumuleret: P (X ≤ x) = B(x; n, p) = Middelværdi: µ = np Varians: σ 2 = np(1 − p)
x X
b(k; n, p)
k=0
R b(x; n, p) = dbinom(x, n, p) B(x; n, p) = pbinom(x, n, p) P (X ≤ x) = P ⇔ x = qbinom(P, n, p)
2.3
Hypergeometrisk fordeling
Af N elementer er a defekte. Vi udvælger n elementer. Sandsynligheden for at trække x defekte er s˚ a a N−a x
P (X = x) = h(x; n, a, N ) =
Nn−x
x = 0, 1, 2, ..., n
n
Kumuleret:
P (X ≤ x) = H (x; n, a, N ) = Middelværdi: µ = n aN Varians: σ 2 = n Na 1 −
a N
N−n N−1
4
x X
k=0
h(k; n, a, N )
R h(x; n, a, N ) = choose(a, x) * choose(N-a, n-x) / choose(N, n) h(x; n, a, N ) = dhyper(x, a, N-a, n) H (x; n, a, N ) = phyper(x, a, N-a, n) P (X ≤ x) = P ⇔ x = qhyper(P, a, N-a, n)
2.4
Poissonfordeling
Ved α hændelser pr. tidsenhed, er sandsynligheden for x hændelser over en periode T givet ved P (X = x) = f (x; λ = αT ) =
λx e−λ x!
x = 0, 1, 2, ..., n
Kumuleret: P (X ≤ x) = F (x; λ = αT ) = Middelværdi: µ = λ Varians: σ 2 = λ R f (x; λ) = dpois(x, lambda) F (x; λ) = ppois(x, lambda) P (X ≤ x) = P ⇔ x = qpois(P, lambda)
5
x X
k=0
f (k; λ)
λ>0
3 3.1
Kontinuerte fordelinger Normalfordeling
Densitet:
2 2 1 f (x; µ, σ 2 ) = √ e−(x−µ) /2σ −∞ qqline(x)
3.2
Uniform fordeling
Densitet: f (x; α, β) =
(
1 β−α
0
α 0 andetsteds
2
Middelværdi: µ = eα+β /2 2 2 Varians: σ 2 = e2α+β (eβ − 1) R f (x; α, β) = dlnorm(x, alpha, beta) F (x; α, β) = plnorm(x, alpha, beta) P (X ≤ x) = P ⇔ x = qlnorm(P, alpha, beta)
3.4
Eksponentialfordeling
Densitet: f (x; β) =
(
1 −x/β e β
x > 0, β > 0
0
andetsteds
Middelværdi: µ = β Varians: σ 2 = β 2 For en Poisson proces, hvor der er α succeser pr. tid, s˚ a er ventetiden mellem disse succeser eksponentialfordelt, hvor β = 1/α. R f (x; β) = dexp(x, 1/beta) F (x; β) = pexp(x, 1/beta) P (X ≤ x) = P ⇔ x = qunif(P, 1/beta) Bemærk at R anvender
1 ! β
7
4
Linearkombinationer af stokastiske variable
Regneregler: E(aX + b) = aE (X) + b V ar (aX + b) = a2 V ar (X) Eksempler: E (2X − Y + 5) = 2E (X) − E(Y ) + 5
V ar(2X − Y + 5) = 22 V ar(X) + (−1)2 V ar (Y ) = 4V ar (X) + V ar (Y ) ⇒ σ 2 = 4σ X + σ Y √ ⇒ σ = 4σ X + σ Y
8
5 5.1
Middelværdi Fejl og konfidensinterval
Central grænseværdi:
¯ −µ X √ σ/ n
Z=
Ved ukendt varians med n − 1 frihedsgrader: t=
X¯ − µ √ S/ n
Maksimal fejl p˚ a estimat: ¯ − µ| = zα/2 √σ E = |X n ¯ − µ| = tα/2 √s E = |X n Størrelse af stikprøve, s˚ a E er bestemt (rund op): n= Konfidensinterval:
z
α/2 σ
E
2
σ σ x¯ − zα/2 √ < µ < x¯ + zα/2 √ n n s s x¯ − tα/2 √ < µ < x¯ + tα/2 √ n n
R zα = qnorm(1-alpha) tα = qt(1-alpha, df) t.test(x, mu=0, conf.level=0.95)
5.2
Hypotesetest
Teststørrelse: Z=
X¯ − µ0 √ σ/ n
t=
¯ − µ0 X √ S/ n
R > t.test(x, mu=0, alt="two.sided", conf.level=0.95)
9
5.3
Sammenligning
Teststørrelse: 1. n1 , n2 ≥ 30, σ 1 6= σ 2 : Z= p
¯ − Y¯ − δ X S12 /n1 + S22 /n2
2. n1 , n2 < 30, σ 1 = σ 2 , (n1 + n2 − 2 frihedsgrader): ¯ − Y¯ − δ X p t= Sp 1/n1 + 1/n2
3. n1 , n2 < 30, σ 1 6= σ 2 (estimerede frihedsgrader, se side 256): ¯ − Y¯ − δ X t′ = p 2 S1 /n1 + S22 /n2
hvor δ = µ1 − µ2 , og Sp (bemærk i anden potens): Sp2 =
(n1 − 1)S12 + (n2 − 1)S 22 n1 + n2 − 2
Konfidensinterval for µ1 − µ2 (frihedsgrader som teststørrelsen): q x¯ − y¯ ± zα/2 s21 /n1 + s22/n2 s (n1 − 1)s12 + (n2 − 1)s22 p 1/n1 + 1/n2 x¯ − y¯ ± tα/2 n1 + n2 − 2 q x¯ − y¯ ± tα/2 s12 /n1 + s22 /n2 R > t.test(x, y, mu=0, alt="two.sided", var.equal=F, conf.level=0.95) Bemærk at for tosidede tests er mu = µ1 − µ2 = δ, samt at vi som regel antager ens varians (alts˚ a modsat default), var.equal=T.
5.4
Parret test
Teststørrelse med n − 1 = n1 − 1 = n2 − 1 frihedsgrader: ¯ − µD,0 D √ t= SD / n hvor
S 2D
Di = Xi − Yi P2 i=1 Di ¯ D= n P2 ¯ 2 (D i − D) = i=1 n−1 10
R > t.test(x, y, mu=0, alt="two.sided", conf.level=0.95, paired=T) Bemærk at mu nu er µD,0 .
11
6
Varians
6.1
Hypotesetest
Konfidensinterval med n − 1 frihedsgrader: (n − 1)s2 (n − 1)s2 < σ2 < 2 2 χ α/2 χ1−α/2 s
(n − 1)s2
σ22
F =
6=
σ22
F =
S22 S 21 S12 S 22 S 2M 2 Sm
Forkast H0 hvis... F > Fα (n2 − 1, n1 − 1) F > Fα (n1 − 1, n2 − 1) F > Fα/2 (nM − 1, nm − 1)
R P (X ≤ x) = pf(x, df1, df2) Fα = qf(1-alpha, df1, df2) Bemærk alts˚ a at F0.01 findes ved qf(0.99, df1, df2).
12
7 7.1
Proportioner Binomialfordelt proportion
Konfidensinterval: x − zα/2 n
r
x/n(1 − x/n) x < p < + zα/2 n n
r
x/n(1 − x/n) n
Maksimal fejl p˚ a estimat: E = zα/2
r
p(1 − p) n
Størrelse af stikprøve, s˚ a E er bestemt ved kendt p (rund op): n = p(1 − p)
z
α/2
E
2
Størrelse af stikprøve, s˚ a E er bestemt ved ukendt p (rund op): n=
1 zα/2 2 4 E
R > prop.test(x, n, correct=T) Bemærk at for at konfidensintervallet skal ligne det, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme).
7.2
Hypotesetest
Teststørrelse: Z= p
X − np0
np0 (1 − p0 )
R prop.test(x, n, p, correct=T, alternative="two.sided") Bemærk at for at teststørrelsen skal ligne den, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme). Bemærk ydermere at dette giver χ2 = Z 2 og alts˚ a ikke Z, s˚ a tag kvadratroden.
13
7.3
Sammenligning af to proportioner
Konfidensinterval: x2 x1 ± zα/2 − n2 n1
s
x1 /n1 (1 − x1 /n1 ) x2 /n2 (1 − x2 /n2 ) + n2 n1
Teststørrelse: Z= p
X1 /n1 − X2 /n2
pˆ(1 − pˆ)(1/n1 + 1/n2 ) pˆ =
X 1 + X2 n1 + n2
hvor Z 2 = χ2 som vi skal se nedenfor.
7.4
Sammenligning af flere proportioner
Teststørrelse: χ2 =
2 k X X (oij − eij )2 eij i=1 j=1
R > prop.test(x, x+y) > chisq.test(data.frame(x, y)) Disse to skulle give samme resultat. Rnoterne anvender førstnævnte og bogen sidstnævnte.
7.5
r × c tabeller
Teststørrelse: χ2 =
r X c X (oij − eij )2 eij i=1 j=1
hvor eij =
(ith row total) × (jth column total) grand total
Den kritiske værdi er χ2α ((r − 1)(c − 1)). R 2 χα ((r − 1)(c − 1)) = qchisq(1-alpha, (r-1)*(c-1))
chisq.test(matrix(c(x, y, z),ncol=k), correct=TRUE) hvor k er antallet af vektorer i matricen. Sæt correct=FALSE hvis det ønskes som i bogen. 14
8
Simulering
Ved ikke-lineære sammenhænge mellem stokastiske variable f (X1 , X2 , ...Xn ) kan den samlede varians estimeres ved: n X df 2 2 σf2 ≈ σi dXi i=1
15
9
Lineær regression
Om residualerne i en regression antages at de er normalfordelte med middelværdi 0 og en bestemt varians.
9.1
Bestemmelse af ligningen
Lineær regressionskurve: Y = α + βx + ǫ Mindste kvadraters metode minimerer summen af de kvadrerede residualer (ei ): y = a + bxi + ei Sxy Sxx a = y¯ − b¯ x b=
Andre størrelser: Sxx =
n X i=1
Syy =
n X
i=1
Sxy =
(xi − x¯)2 = (n − 1)σ x2 (yi − y¯)2 = (n − 1)σ 2y
n X (xi − x¯)(yi − y¯) i=1
9.2
Teststørrelse og konfidensinterval for α og β
Teststørrelse for α og β med n − 2 frihedsgrader: r a−α nSxx t= Sxx + n¯ x2 se t=
b − βp Sxx se
hvor se er givet ved (bemærk kvadreret): σ ˆ 2 = se2 =
n Syy − S 2xy /Sxx 1 X 2 ei = n − 2 i=1 n−2
Konfidensintervaller for α og β med (n − 2) frihedsgrader: s x¯2 1 + α : a ± tα/2 se n Sxx r 1 β : b ± tα/2 se Sxx 16
9.3
Konfidensinterval for α + βx0
Konfidensinterval med n − 2 frihedsgrader: s (x0 − x¯)2 1 + a + bx0 ± tα/2 se n Sxx Forudsigelse af fremtidig Y med n − 2 frihedsgrader: s 1 (x0 − x¯)2 a + bx0 ± tα/2 se 1 + + n Sxx
9.4
Korrelation
Korrelationskoefficient: r=p
Sxy SxxSyy
Forklaringsgraden r2 er andelen af y afvigelsen der kan tilskrives den lineære sammenhæng. S˚ a hvis r2 = 0.78, s˚ a kan 78% af y-værdien tilskrives den lineære sammenhæng, og de sidste 20% m˚ a s˚ a tilskrives datafejl. R Scatter-plot af y som funktion af x: > plot(y~x) One command to rule them all... > summary(lm(y~x)) Eksempel: > x = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) > y = c(16, 35, 45, 64, 86, 96, 106, 124, 134, 156, 164, 182) > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q -3.8030 -3.2121
Median 0.1061
3Q 1.5152
Max 7.5606
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.3485 2.2440 1.938 0.0814 . x 14.8182 0.3049 48.600 3.28e-13 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 17
Residual standard error: 3.646 on 10 degrees of freedom Multiple R-squared: 0.9958,Adjusted R-squared: 0.9954 F-statistic: 2362 on 1 and 10 DF, p-value: 3.283e-13 yˆ = 4.3482 + 14.8182x se = 3.646 r2 = 0.9958 α ± tα/2 2.2440 β ± tα/2 0.3049 For hældningen ses, at p-værdien er meget lav, ergo er det meget sandsynligt at β 6= 0. Derimod er der større usikkerhed omkring α, da p-værdien er 0.08.
18
10
Variansanalyse
Data skal være normalfordelt inden for hver gruppe, uafhængige og varianserne for hver gruppe m˚ a ikke afvige signikant fra hinanden.
10.1
Envejs variansanalyse
10.1.1
Nøgletal og model SS(T r) =
k X i=1
SSE =
ni (¯ yi − y¯)2
k X ni X i=1 j=1
k
SST =
(yij − y¯i )2
ni
XX
i=1 j=1
(yij − y¯)2 = SSE + SS(T r)
Model for envejs variansanalyse: Yij = µ + αi + ǫij hvor µ ˆ = y¯, α ˆ i = y¯i − y¯ og ǫˆij = yij − y¯i . 10.1.2
Hypotesetest og konfidensinterval H0 : αi = 0, H1 : αi 6= 0
for alle i. Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Residual Total
Frihedsgrader k−1 N −k N −1
Kvadratsummer SS(T r) SSE SST
Mean square r) M S(T r) = SS(T k−1 SSE M SE = N −k
Teststørrelse r) F = MS(T MSE
F er alts˚ a teststørrelsen med (k − 1, N − k) frihedsgrader. H0 forkastes, hvis F > Fα . Post hoc konfidensinterval med N − k frihedsgrader (hvordan er to grupper forskellige fra hinanden): p y¯1 − y¯2 ± tα/2 s2 (1/n1 + 1/n2 ) hvor σ ˆ 2 = s2 = M SE med N − k frihedsgrader.
19
R Variansanalysetabel (ANOVA-tabel): > anova(lm(data~treatment))
10.2 10.2.1
Tovejs variansanalyse Nøgletal og model a X
b(¯ yi· − y¯·· )2
b X
a(y·j − y¯·· )2
SS(T r) =
i=1
SS(Bl) =
j=1
SST =
k X ni X i=1 j=1
(yij − y¯·· )2
SSE = SST − SS (T r) − SS (Bl) Model for tovejs variansanalyse: Yij = µ + αi + βj + ǫij hvor µ ˆ = y¯, α ˆ i = y¯i − y¯, βˆj = y¯j − y¯ og ǫˆij = yij − y¯i . 10.2.2
Hypotesetest
Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Blokke Residual Total
Frihedsgrader a−1 b−1 (a − 1)(b − 1) ab − 1
Kvadratsummer SS(T r) SS(Bl) SSE SST
Mean square r) M S(T r) = SS(T a−1 SS (Bl) M S(Bl) = b−1 SSE M SE = (a−1)( b−1)
Teststørrelse r) FT r = MS(T MSE FBl =
F er alts˚ a teststørrelsen med (k − 1, N − k) frihedsgrader. H0 forkastes, hvis F > Fα . R Variansanalysetabel (ANOVA-tabel): > > > > >
y = c(13,7,9,3,6,6,3,1,11,5,15,5) treatm = c(1,1,1,1,2,2,2,2,3,3,3,3) block = c(1,2,3,4,1,2,3,4,1,2,3,4) example attach(example) > treatm block anova(lm(y~treatm+block)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 2 56 28.0000 3.2308 0.11162 block 3 90 30.0000 3.4615 0.09138 . Residuals 6 52 8.6667 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
21...