Title | Cheatsheet - statistik |
---|---|
Author | AbdulXD |
Course | Statistik |
Institution | Danmarks Tekniske Universitet |
Pages | 21 |
File Size | 348.7 KB |
File Type | |
Total Downloads | 135 |
Total Views | 271 |
02403 Cheat Sheet - 27. juni Mathias N Justesen 1 Deskriptiv statistik Indhold 1 Middelværdi 1 Varians 1 Kvartiler 2 Diskrete fordelinger 2 Middelærdi og varians 2 Binomialfordeling 2 Hypergeometrisk fordeling 2 Poissonfordeling 3 Kontinuerte fordelinger 3 Normalfordeling 3 Uniform fordeling 3 Log-n...
02403 Cheat Sheet Mathias N Justesen 27. juni 2013
Indhold 1 Deskriptiv statistik 1.1 Middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Kvartiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 3
2 Diskrete fordelinger 2.1 Middelærdi og varians . . 2.2 Binomialfordeling . . . . . 2.3 Hypergeometrisk fordeling 2.4 Poissonfordeling . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 4 4 4 5
3 Kontinuerte fordelinger 3.1 Normalfordeling . . . . 3.2 Uniform fordeling . . . 3.3 Log-normal fordeling . 3.4 Eksponentialfordeling
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
6 6 6 7 7
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Linearkombinationer af stokastiske variable 5 Middelværdi 5.1 Fejl og konfidensinterval 5.2 Hypotesetest . . . . . . 5.3 Sammenligning . . . . . 5.4 Parret test . . . . . . . .
3
8
9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . 10 . . . . . . . . . . . . . . . . . . . . . . . 10
6 Varians 12 6.1 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.2 Sammenligning af varians . . . . . . . . . . . . . . . . . . . . . . 12 7 Proportioner 7.1 Binomialfordelt proportion . . . . . . . . . . . . . . . . . . . . . 7.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Sammenligning af to proportioner . . . . . . . . . . . . . . . . . . 7.4 Sammenligning af flere proportioner . . . . . . . . . . . . . . . . 7.5 r ⇥ c tabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Simulering
13 13 13 14 14 14 15
1
9 Lineær regression 16 9.1 Bestemmelse af ligningen . . . . . . . . . . . . . . . . . . . . . . 16 9.2 Teststørrelse og konfidensinterval for ↵ og . . . . . . . . . . . . 16 9.3 Konfidensinterval for ↵ + x0 . . . . . . . . . . . . . . . . . . . . 16 9.4 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 10 Variansanalyse 10.1 Envejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Hypotesetest og konfidensinterval . . . . . . . . . . . . . . 10.2 Tovejs variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Nøgletal og model . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Hypotesetest . . . . . . . . . . . . . . . . . . . . . . . . .
2
18 18 18 18 19 19 19
1
Deskriptiv statistik
1.1
Middelværdi x¯ =
Pn
i=1
xi
n
R > mean(x)
1.2
Varians s2 =
Pn
x ¯)2 n1
i=1 (xi
R > var(x)
1.3
Kvartiler
Beregn den pte kvartil: 1. Beregn produktet np 2. Hvis np ikke er et heltal, s˚ a rund op. Hvis k = np er et heltal, s˚ a tag gennemsnittet af den kte og den (k + 1)te observation. Q1 , Q2 , Q3 er hhv. den 25., 50., og 75. fraktil. R > quantile(x, p, type=2) Finder p-fraktilen som bogen. > summary(x) Giver Q1 , medianen og Q3 . Bemærk at R beregner fraktilerne anderledes end bogen!
3
2 2.1
Diskrete fordelinger Middelærdi og varians µ=
X
x · f (x)
all x
2 =
X
(x µ)2 · f (x)
all x
2.2
Binomialfordeling
Sandsynligheden for at f˚ a x succeser i n forsøg, hvor sandsynligheden for succes er p i hvert forsøg: ✓ ◆ n x p (1 p)nx x = 0, 1, 2, ..., n P (X = x) = b(x; n, p) = x Kumuleret: P (X x) = B(x; n, p) = Middelværdi: µ = np Varians: 2 = np(1 p)
x X
b(k; n, p)
k=0
R b(x; n, p) = dbinom(x, n, p) B(x; n, p) = pbinom(x, n, p) P (X x) = P , x = qbinom(P, n, p)
2.3
Hypergeometrisk fordeling
Af N elementer er a defekte. Vi udvælger n elementer. Sandsynligheden for at trække x defekte er s˚ a a N a x
P (X = x) = h(x; n, a, N ) =
Nnx
x = 0, 1, 2, ..., n
n
Kumuleret:
P (X x) = H (x; n, a, N ) = Middelværdi: µ = n aN a 1 Varians: 2 = n N
a N
⇣ N n ⌘ N 1
4
x X
k=0
h(k; n, a, N )
R h(x; n, a, N ) = choose(a, x) * choose(N-a, n-x) / choose(N, n) h(x; n, a, N ) = dhyper(x, a, N-a, n) H (x; n, a, N ) = phyper(x, a, N-a, n) P (X x) = P , x = qhyper(P, a, N-a, n)
2.4
Poissonfordeling
Ved ↵ hændelser pr. tidsenhed, er sandsynligheden for x hændelser over en periode T givet ved P (X = x) = f (x; = ↵T ) =
x eλ x!
x = 0, 1, 2, ..., n
Kumuleret: P (X x) = F (x; = ↵T ) = Middelværdi: µ = Varians: 2 = R f (x; ) = dpois(x, lambda) F (x; ) = ppois(x, lambda) P (X x) = P , x = qpois(P, lambda)
5
x X
k=0
f (k; )
>0
3 3.1
Kontinuerte fordelinger Normalfordeling
Densitet:
2 2 1 f (x; µ, 2 ) = p e(xµ) /2σ 1 qqline(x)
3.2
Uniform fordeling
Densitet: f (x; ↵, ) =
(
1 βα
0
↵ 0 andetsteds
2
Middelværdi: µ = eα+β /2 2 2 Varians: 2 = e2α+β (eβ 1) R f (x; ↵, ) = dlnorm(x, alpha, beta) F (x; ↵, ) = plnorm(x, alpha, beta) P (X x) = P , x = qlnorm(P, alpha, beta)
3.4
Eksponentialfordeling
Densitet: f (x; ) =
(
1 x/β e β
0
x > 0, > 0 andetsteds
Middelværdi: µ = Varians: 2 = 2 For en Poisson proces, hvor der er ↵ succeser pr. tid, s˚ a er ventetiden mellem disse succeser eksponentialfordelt, hvor = 1/↵. R f (x; ) = dexp(x, 1/beta) F (x; ) = pexp(x, 1/beta) P (X x) = P , x = qunif(P, 1/beta) Bemærk at R anvender
1 ! β
7
4
Linearkombinationer af stokastiske variable
Regneregler: E(aX + b) = aE(X) + b V ar(aX + b) = a2 V ar(X) Eksempler: E (2X Y + 5) = 2E (X) E (Y ) + 5
V ar(2X Y + 5) = 22 V ar(X) + (1)2 V ar(Y ) = 4V ar(X) + V ar(Y ) ) 2 = 4X + Y p ) = 4X + Y
8
5 5.1
Middelværdi Fejl og konfidensinterval
Central grænseværdi:
¯ µ X p / n
Z=
Ved ukendt varians med n 1 frihedsgrader: t=
X¯ µ p S/ n
Maksimal fejl p˚ a estimat: ¯ µ| = z E = |X α/2 p n ¯ µ| = tα/2 ps E = |X n Størrelse af stikprøve, s˚ a E er bestemt (rund op): n= Konfidensinterval:
⇣z
α/2
E
⌘2
x¯ zα/2 p < µ < x ¯ + zα/2 p n n s s ¯ + tα/2 p x¯ tα/2 p < µ < x n n
R zα = qnorm(1-alpha) tα = qt(1-alpha, df) t.test(x, mu=0, conf.level=0.95)
5.2
Hypotesetest
Teststørrelse: Z=
X¯ µ0 p / n
t=
¯ µ0 X p S/ n
R > t.test(x, mu=0, alt="two.sided", conf.level=0.95)
9
5.3
Sammenligning
Teststørrelse: 1. n1 , n 2 30, 1 6= 2 : Z= p
¯ Y¯ X 2 S1 /n1 + S 22 /n2
2. n1 , n 2 < 30, 1 = 2 , (n1 + n2 2 frihedsgrader): ¯ Y¯ X t= p Sp 1/n1 + 1/n2
3. n1 , n 2 < 30, 1 6= 2 (estimerede frihedsgrader, se side 256): ¯ Y¯ X t0 = p 2 S1 /n1 + S 22 /n2
hvor = µ1 µ2 , og Sp (bemærk i anden potens): Sp2 =
(n1 1)S 21 + (n2 1)S 22 n1 + n2 2
Konfidensinterval for µ1 µ2 (frihedsgrader som teststørrelsen): q x¯ y¯ ± zα/2 s21 /n1 + s22/n2 s (n1 1)s12 + (n2 1)s22 p x¯ y¯ ± tα/2 1/n1 + 1/n2 n1 + n2 2 q x¯ y¯ ± tα/2 s12 /n1 + s22/n2 R > t.test(x, y, mu=0, alt="two.sided", var.equal=F, conf.level=0.95) Bemærk at for tosidede tests er mu = µ1 µ2 = , samt at vi som regel antager ens varians (alts˚ a modsat default), var.equal=T.
5.4
Parret test
Teststørrelse med n 1 = n1 1 = n2 1 frihedsgrader: ¯ µD,0 D t= p SD / n hvor
S 2D
Di = Xi Yi P2 i=1 Di ¯= D n P2 ¯ 2 (D i D) = i=1 n1 10
R > t.test(x, y, mu=0, alt="two.sided", conf.level=0.95, paired=T) Bemærk at mu nu er µD,0 .
11
6
Varians
6.1
Hypotesetest
Konfidensinterval med n 1 frihedsgrader: (n 1)s2 (n 1)s2 < 2 < 2 2 1α/2 α/2 s
(n 1)s2
22
F
6=
22
F
S2 = S22 1 S2 = S21 2 S2 = S2M m
Forkast H0 hvis... F > Fα (n2 1, n1 1)
F > Fα (n1 1, n2 1)
F > Fα/2 (nM 1, nm 1)
R P (X x) = pf(x, df1, df2) Fα = qf(1-alpha, df1, df2) Bemærk alts˚ a at F0.01 findes ved qf(0.99, df1, df2).
12
7 7.1
Proportioner Binomialfordelt proportion
Konfidensinterval: x zα/2 n
r
x x/n(1 x/n) < p < + zα/2 n n
r
x/n(1 x/n) n
Maksimal fejl p˚ a estimat: E = zα/2
r
p(1 p) n
Størrelse af stikprøve, s˚ a E er bestemt ved kendt p (rund op): n = p(1 p)
⇣z
α/2
E
⌘2
Størrelse af stikprøve, s˚ a E er bestemt ved ukendt p (rund op): n=
1 ⇣ zα/2 ⌘2 E 4
R > prop.test(x, n, correct=T) Bemærk at for at konfidensintervallet skal ligne det, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme).
7.2
Hypotesetest
Teststørrelse: Z= p
X np0
np0 (1 p0 )
R prop.test(x, n, p, correct=T, alternative="two.sided") Bemærk at for at teststørrelsen skal ligne den, der fremkommer ved brug af bogens formel, s˚ a skal correct=F sættes (det bliver dog stadig ikke helt det samme). Bemærk ydermere at dette giver 2 = Z 2 og alts˚ a ikke Z, s˚ a tag kvadratroden.
13
7.3
Sammenligning af to proportioner
Konfidensinterval: x2 x1 ± zα/2 n1 n2
s
x1 /n1 (1 x1 /n1 ) x2 /n2 (1 x2 /n2 ) + n2 n1
Teststørrelse: Z= p
X1 /n1 X2 /n2
pˆ(1 pˆ)(1/n1 + 1/n2 ) pˆ =
X1 + X2 n1 + n2
hvor Z 2 = 2 som vi skal se nedenfor.
7.4
Sammenligning af flere proportioner
Teststørrelse: 2 =
2 X k X (oij eij )2 eij i=1 j=1
R > prop.test(x, x+y) > chisq.test(data.frame(x, y)) Disse to skulle give samme resultat. Rnoterne anvender førstnævnte og bogen sidstnævnte.
7.5
r ⇥ c tabeller
Teststørrelse: 2 =
r X c X (oij eij )2 eij i=1 j=1
hvor eij =
(ith row total) ⇥ (jth column total) grand total
Den kritiske værdi er 2α ((r 1)(c 1)). R α2 ((r 1)(c 1)) = qchisq(1-alpha, (r-1)*(c-1)) chisq.test(matrix(c(x, y, z),ncol=k), correct=TRUE) hvor k er antallet af vektorer i matricen. Sæt correct=FALSE hvis det ønskes som i bogen. 14
8
Simulering
Ved ikke-lineære sammenhænge mellem stokastiske variable f (X1 , X2 , ...Xn ) kan den samlede varians estimeres ved: ◆ n ✓ X df 2 2 i f2 ⇡ dXi i=1
15
9
Lineær regression
Om residualerne i en regression antages at de er normalfordelte med middelværdi 0 og en bestemt varians.
9.1
Bestemmelse af ligningen
Lineær regressionskurve: Y = ↵ + x + ✏ Mindste kvadraters metode minimerer summen af de kvadrerede residualer (ei ): y = a + bxi + ei b=
Sxy Sxx
a = y¯ b¯ x
Andre størrelser:
n X
Sxx =
i=1
Syy =
n X
i=1
Sxy =
(xi x¯)2 = (n 1) 2x (yi y¯)2 = (n 1) 2y
n X (xi x¯)(yi y¯) i=1
9.2
Teststørrelse og konfidensinterval for α og β
Teststørrelse for ↵ og med n 2 frihedsgrader: r nSxx a↵ t= Sxx + n¯ x2 se t=
b p Sxx se
hvor se er givet ved (bemærk kvadreret): ˆ 2 = s2e =
n 1 X 2 Syy S 2xy /Sxx ei = n2 n2 i=1
Konfidensintervaller for ↵ og med (n 2) frihedsgrader: s x¯2 1 + ↵ : a ± tα/2 se n Sxx r 1 : b ± tα/2 se Sxx 16
9.3
Konfidensinterval for α + βx0
Konfidensinterval med n 2 frihedsgrader: s 1 (x0 x¯)2 a + bx0 ± tα/2 se + n Sxx Forudsigelse af fremtidig Y med n 2 frihedsgrader: s 1 (x x¯)2 a + bx0 ± tα/2 se 1 + + 0 n Sxx
9.4
Korrelation
Korrelationskoefficient: r=p
Sxy SxxSyy
Forklaringsgraden r2 er andelen af y afvigelsen der kan tilskrives den lineære sammenhæng. S˚ a hvis r2 = 0.78, s˚ a kan 78% af y-værdien tilskrives den lineære sammenhæng, og de sidste 20% m˚ a s˚ a tilskrives datafejl. R Scatter-plot af y som funktion af x: > plot(y~x) One command to rule them all... > summary(lm(y~x)) Eksempel: > x = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) > y = c(16, 35, 45, 64, 86, 96, 106, 124, 134, 156, 164, 182) > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q -3.8030 -3.2121
Median 0.1061
3Q 1.5152
Max 7.5606
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.3485 2.2440 1.938 0.0814 . x 14.8182 0.3049 48.600 3.28e-13 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 17
Residual standard error: 3.646 on 10 degrees of freedom Multiple R-squared: 0.9958,Adjusted R-squared: 0.9954 F-statistic: 2362 on 1 and 10 DF, p-value: 3.283e-13 yˆ = 4.3482 + 14.8182x se = 3.646 r2 = 0.9958 ↵ ± tα/2 2.2440 ± tα/2 0.3049 For hældningen ses, at p-værdien er meget lav, ergo er det meget sandsynligt at 6= 0. Derimod er der større usikkerhed omkring ↵, da p-værdien er 0.08.
18
10
Variansanalyse
Data skal være normalfordelt inden for hver gruppe, uafhængige og varianserne for hver gruppe m˚ a ikke afvige signikant fra hinanden.
10.1
Envejs variansanalyse
10.1.1
Nøgletal og model SS(T r) =
k X i=1
k
SSE =
ni (¯ yi y¯)2
ni XX (yij y¯i )2 i=1 j=1
SST =
k X ni X
i=1 j=1
(yij y¯)2 = SSE + SS(T r)
Model for envejs variansanalyse: Yij = µ + ↵i + ✏ij hvor µˆ = y¯, ↵ ˆ i = y¯i y¯ og ˆ✏ij = yij y¯i . 10.1.2
Hypotesetest og konfidensinterval H0 : ↵i = 0, H 1 : ↵i 6= 0
for alle i. Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Residual Total
Frihedsgrader k1 N k N 1
Kvadratsummer SS(T r) SSE SST
Mean square r) M S(T r) = SS(T k1 SSE M SE = N k
Teststørrelse r) F = MS(T MSE
F er alts˚ a teststørrelsen med (k 1, N k) frihedsgrader. H0 forkastes, hvis F > Fα. Post hoc konfidensinterval med N k frihedsgrader (hvordan er to grupper forskellige fra hinanden): p y¯1 y¯2 ± tα/2 s2 (1/n1 + 1/n2 ) hvor ˆ 2 = s2 = M SE med N k frihedsgrader.
19
R Variansanalysetabel (ANOVA-tabel): > anova(lm(data~treatment))
10.2 10.2.1
Tovejs variansanalyse Nøgletal og model a X
b(¯ yi· y¯·· )2
b X
a(y·j y¯·· )2
SS(T r) =
i=1
SS(Bl) =
j=1
k
SST =
ni XX i=1 j=1
(yij y¯·· )2
SSE = SST SS(T r) SS(Bl)
Model for tovejs variansanalyse:
Yij = µ + ↵i + j + ✏ij ˆj = y¯j y¯ og ˆ✏ij = yij y¯i . hvor µˆ = y¯, ↵ ˆ i = y¯i y¯, 10.2.2
Hypotesetest
Variansanalysetabel (ANOVA-tabel): Variationskilde Behandling Blokke Residual Total
Frihedsgrader a1 b1 (a 1)(b 1) ab 1
Kvadratsummer SS(T r) SS(Bl) SSE SST
Mean square r) M S(T r) = SS(T a1 SS(Bl) M S(Bl) = b1 SSE M SE = (a1)( b1)
Teststørrelse r) FT r = MS(T MSE MS(Bl) FBl = MSE
F er alts˚ a teststørrelsen med (k 1, N k) frihedsgrader. H0 forkastes, hvis F > Fα. R Variansanalysetabel (ANOVA-tabel): > > > > >
y = c(13,7,9,3,6,6,3,1,11,5,15,5) treatm = c(1,1,1,1,2,2,2,2,3,3,3,3) block = c(1,2,3,4,1,2,3,4,1,2,3,4) example attach(example) > treatm block anova(lm(y~treatm+block)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) treatm 2 56 28.0000 3.2308 0.11162 block 3 90 30.0000 3.4615 0.09138 . Residuals 6 52 8.6667 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
21...