Title | Notizen - Wintersemester 2017/2018 |
---|---|
Course | Statistik |
Institution | Frankfurt University of Applied Sciences |
Pages | 35 |
File Size | 837.6 KB |
File Type | |
Total Downloads | 12 |
Total Views | 126 |
Wintersemester 2017/2018...
Wirtschaftsstatistik 2017/18 – Notizen zu ausgewählten Aufgaben Nur für eingeschriebene TeilnehmerInnen und ohne Gewähr, Fehler bitte melden an [email protected] © PD Dr. Marco Sunder — Stand: 1. Februar 2018
2—1 a) Im Nenner verwenden wir den Verschiebungssatz der Varianz, im Zähler multiplizieren wir innerhalb der Summe aus. 1 P ¯ ¯ ( − ¯ ) · (y − y) ( y − y ¯ − y ¯+ ¯ y) n−1 ˆ=Ç ρ =Ç Ç Ç P P 2 P 2 1 1 1 P 1 ¯ 2 · n−1 y − ny¯ 2 ( − ¯ )2 · n−1 (y − y ¯ )2 − n n−1 n−1 1 n−1
P
Rote Terme kürzen sich heraus, Summe im Zähler wird aufgelöst, Konstanten werden aus P Summen herausgezogen, wir verwenden das Schema z = n¯z (aus der Formel für arith-
metisches Mittel):
P P P ¯ + n ¯ ¯y ¯y¯ ¯ y + n¯ y y − ny¯¯ − n y − y ¯ − ˆ = ÇP = ÇP ρ ÇP ÇP 2 2 ¯2 · ¯2 · − n − n y2 − n ¯y 2 y 2 − ny¯ 2 P
P
¯ y − n¯ y ˆ=Ç P ρ P ¯ 2 ) · ( y 2 − ny¯2 ) ( 2 − n
b) Wir unterstellen = z und y = z und setzen in die Formel ein: P 2 z z¯ z − n¯z 2 z z − n¯ ˆ=Ç P =1 ρ = P P z2 − n¯z 2 z 2 ) · ( z2 − n¯z 2 ) ( z 2 − n¯ P
c) Wir definieren ˜ = sowie y˜ = y y , wobei und y Konstanten sind, und setzen in die Formel ein: ρ ˆX, ˜ Y˜
P
P ˜ y˜ − n ¯˜˜y¯ y y − y n ¯y¯ y ·ρ ˆ X,Y = Ç P = r =r P P P 2 2 2 2y ¯ 2 ) · 2y ( y2 − ny¯ 2 ) ( ˜ − n ¯˜2 ) · ( y˜ − n ¯˜y 2 ) 2 ( 2 − n
Achtung: Im Nenner geht durch Quadrieren und Radizieren das Vorzeichen verloren. Wir schreiben dies mit Betragzeichen: ˆ X, ρ ˜ Y˜ = Fall i): = 2, y = 2
ρ ˆ X, ˜ Y˜ =
→
2·2 |2|·|2|
· y | | · |y |
·ρ ˆ X,Y
·ρ ˆ X,Y = ρ ˆ X,Y
(Korrelationskoeffizient bleibt unverändert)
2·1 ˆ X, ˆ X,Y = ρˆX,Y ρ ˜ = |2|·|1| · ρ ˜ Y (Korrelationskoeffizient bleibt unverändert)
Fall ii): = 2, y = 1
→
(−1)·1 ˆ X,Y ρ ˆ X, ˆ X,Y = − ρ ˜ Y˜ = |(−1)|·|1| · ρ (Korrelationskoeffizient ändert Vorzeichen)
Fall iii) = −1, y = 1
→
1
2—2 a) In der Tabelle unten werden die Daten nochmal in Form einer geordneten Urliste (aufsteigend sortiert) angegeben. (neu)
2
ƒ ()
F()
1
6.5
42.25
0.0833
0.0833
2
8
64
0.0833
0.1667
3
8.5
72.25
0.0833
0.2500
4
9.5
90.25
0.0833
0.3333
5
10
100
0.2500
0.5833
6
10
100
7
10
100
8
11
121
0.0833
0.6667
9
12
144
0.0833
0.7500
10
12.5
156.25
0.0833
0.8333
11
14
196
0.0833
0.9167
12
16
256
0.0833
1.0000
Summe
128
1442
1
Spannweite: Mittelwert:
m − mn = 16 − 6.5 = 9. 5 1 1 P ¯ = n = 12 · 128 = 10.667
[ 6] +[ 7] 2
10 + 10 2
Median (q = 0.5):
(n + 1)q = 6.5 → (0.5) =
Modus:
mod = 10 P 1 1 σˆ 2 = n−1 ( 2 − n ¯ 2 ) = 11 (1442 − 12 · 10.6672 ) = 6.96 p p σˆ = σ ˆ 2 = 6.96 = 2.64
Varianz: Standardabweichung: Variationskoeffizient:
C.V. =
σ ˆ ¯
=
2.64 10.667
= 0.25
2
=
= 10
b) Hierzu plotten wir F() gegen 1.0
empirische Verteilungsfunktion
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 6
7
8
9
10
11
12
13
14
15
16
17
x
c) Histogramm: Die Einteilung der Klassen ist „Geschmackssache“. Hier: [ 5, 7), [ 7, 9), . . . 4
Häufigkeit
3
2
1
0 5
7
9
11
13
15
17
d) Für den Box-Plot müssen wir neben Median noch die Quartile berechnen. Über den IQR ermitteln wir, ob die „Whiskers“ (max. 1.5 IQR-Einheiten von Box entfernt) noch den minimalen bzw. maximalen Wert abdecken (extreme Wert würden sonst einzeln markiert). Hier: QR = (0.75) − (0.25) = 12.25 − 9 = 3. 25, d.h. die Whiskers dürften nach unten bis
9 − 1. 5 · 3.25 = 4.125 < mn bzw. nach oben bis 12.25 + 1.5 · 3.25 = 16.875 > m
reichen. In diesem Fall können wir also mn bzw. m mit den Whiskers zeichnen ohne
weitere „Ausreißer“ zu markieren. 3
18
16
14 12.25 12
10 9 8 6.5 6
4
GBP 1 GBP e) Wenn wir alle -Werte mit dem Wechselkurs = 1.12 EUR = 0.893 EUR multiplizieren (˜ = · ), dann könnten wir die Maßzahlen nochmals für „Pfund“ ausrechnen.
Einsetzen in die jeweilige „Formel“ zeigt, dass Spannweite, Mittelwert, Median, Modus sich P mit Faktor proportional ändern (hier werden also alle etwas kleiner), z.B. ¯˜ = n1 ˜ = P 1 ( · ) = ¯ = 0.893 · ¯ . n Die Varianz wird mit Faktor 2 multipliziert: ˆ 2˜ = σ X
1 n− 1
X
¯˜ 2 = ˜ − ) (
1 n− 1
X
2 2 ¯) = ( −
Folglich beträgt die Standardabweichung ˆσX˜ = ent C.V. =
||·σˆX ·¯ .
Ç
1 n− 1
X
¯ 2 = 2 ˆσX2 ( − )
ˆ X , und der Variationskoeffizi2σˆ2X = || · σ
Für (wie hier) positives bedeutet das, dass sich der Variationskoeffizient durch die Veränderung der Maßeinheit nicht ändert.
4
2—3 a)
b)
5
c) Wir können die Formel aus 2—1 verwenden mit „BW“ als und „HE“ als y . t
t
yt
2t
y 2t
t · y t
1
5.7
3.9
32.49
15.21
22.23
2
1.2
1.4
1.44
1.96
1.68
3
-6.8
-4.8
46.24
23.04
32.64
4
8.3
3.5
68.89
12.25
29.05
5
5.5
3.7
30.25
13.69
20.35
6
1.9
1.0
3.61
1
1.9
7
2.3
2.6
5.29
6.76
5.98
8
3.3
4.1
10.89
16.81
13.53
9
5.2
3.1
27.04
9.61
16.12
10
3.6
2.8
12.96
7.84
10.08
Summe
30.2
21.3
239.1
108.17
153.56
Hier ergibt sich ¯= effizient berechnen:
30 . 2 10
ρˆX,Y = Æ
= 3.02 bzw. ¯=
21 . 3 10
= 2.13. Damit können wir den Korrelationsko-
153. 56 − 10 · 3.02 · 2. 13 (239.1 − 10 · 3. 022 ) · (108.17 − 10 · 2. 132 )
= 0.9259
Hier liegt also ein recht starker positiver (linearer) Zusammenhang zwischen den Wachstumsraten der Länder vor. (Das Krisenjahr 2009 hat daran sicher großen Anteil; ohne dieses Jahr wäre der Wert nur 0.7.) d) Hier soll die jährliche Wachstumsrate ermittelt werden, mit der das BIP von Ende 2006 [sic] bis Ende 2016 gewachsen ist. Diese ist nicht genau identisch mit dem arithmetischen Mittel der Wachstumsraten der einzelnen Jahre. Wir ermitteln sie, indem wir das yt berechnen, um dann daraus wiegeometrische Mittel der Wachstumsfaktoren t = 1 + 100 ¯ ¯ der eine Wachstumsrate zu ziehen. v u T uY T ¯ geom. = t t t=1
=
(1.039 · 1. 014 · 0.952 · 1.035 · 1.037 · 1. 010 · 1. 026 · 1.041 · 1. 031 · 1.028)0.1
=
1.02098
Die durchschnittliche jährliche Wachstumsrate betrug also ( ¯ geom. − 1) · 100% = 2.1%.
6
2—5 Schaut man sich die Formel zur Berechnung der Kovarianz an, sieht man, dass die „Reihenfolge“ der beiden Variablen egal ist, d.h. ˆσX,Y = σˆY,X . Entsprechend ist die Kovarianzmatrix C eigentlich symmetrisch, die Werte rechts oben wurden in der Aufgabe nur nicht angegeben (Redundanz). Wollen wir den Korrelationskoeffizient für die Variablenkombination Z (Zeile)—S (Spalte) ermitteln, verwenden wir dieses Schema (da Varianzen entlang der Hauptdiagonale stehen): ρ ˆ Z,S = Æ
C[Z,S] C[Z,Z ] · C[ S,S]
,
wobei mit CZ,S das Element (Skalar) der Matrix in Zeile Z und Spalte S gemeint ist. So wäre z.B. der Korrelationskoeffizient für PISA-Punkte Lesen und PISA-Punkte Rechnen ρ ˆ X2,X1 = 153 p = 0.8455. Wir können alle bivariaten Korrelationskoeffizienten wieder in einer 177·185
Matrix/Tabelle zusammenfassen: X1
X2
X3
X1
1
X2
0.8455
1
X3
0.3521
0.5102
1
X4
0.0957
0.3778
0.4157
X4
1
Vorsicht: Korrelationen nicht vorschnell als kausale Zusammenhänge (Ursache-WirkungsBeziehungen) interpretieren. Anmerkungen zur Untersuchung bivariater Zusammenhänge Wir haben im Kurs drei Verfahren zur Untersuchung von Zusammenhängen zwischen und y besprochen: • Bravais-Pearson Korrelationskoeffizient ρˆ (Wertebereich −1 bis 1) • Spearman Rangkorrelationskoeffizient rˆ (Wertebereich −1 bis 1) • Kontingenzkoeffizient K ∗ (Wertebereich 0 bis 1) Welches Verfahren zum Einsatz kommen kann, hängt dabei vom Skalenniveau der Variablen ab. y
nominal
ordinal
metrisch
nominal
K∗
K∗
K∗
ordinal
K∗
rˆ, K ∗
rˆ, K ∗
metrisch
K∗
rˆ, K ∗
ρ, ˆ rˆ, K ∗
Bei metrischen Variablen mit vielen möglichen Ausprägungen ist es sinnvoll, die Werte der Variable(n) für die Berechnung von K ∗ in Klassen aufzuteilen. 7
3—1 a) Relative Häufigkeiten ƒj =
nj PJ
j=1
nj
aus der Häufigkeitstabelle ermitteln und dann Formeln
für gruppierte Daten anwenden!
ˆσ 2 =
50 50 − 1
¯ = 0. 52 · 1 + 0. 1 · 2 + 0. 1 · 3 + 0. 14 · 4 + 0. 1 · 5 + 0. 04 · 6 = 2.32 ·[ 0.52(1−2.32)2 +0.1(2− 2.32)2 + 0.1(3− 2.32)2 + 0.14(4− 2.32)2 + 0.1(5− 2.32 )2 +0.04(6− 2.32)2 ] = 2.67
b) Wenn alle Haushalte gleiche Ziehungswahrscheinlichkeit haben, dann ist P(X ≤ 3) = F(3) = ƒ (1) + ƒ (2) + ƒ (3) = 0.52 + 0.1 + 0.1 = 0.72 c) Nein, der Anteil 0.52 bezieht sich auf Haushalte als statistische Einheiten. Die Zahl der P 26· 1 Personen für eine bestimmte Haushaltsgröße ist j · nj mit j j · nj = 116. D.h. 116 = 0.22
ist der Anteil der Personen mit der Eigenschaft, dass sie in Single-Haushalten leben. d) Überlegung: Häufigkeitstabelle auf Personenebene aufschreiben (n = 116).
P(Y ≤ 3) = F [y] (3) = ƒ [y] (1) + ƒ [y] (2) + ƒ [y] (3) = 0.224 + 0.086 + 0.129 = 0.439 3—2 a) Idee: Alle Werte relativ zur Spaltensumme ausdrücken (und mit 100% multiplizieren). Zustimmung
West
Ost
++
3.6%
1.7%
+
20.3%
12.1%
–
54.4%
49.4%
–– P
21.7%
36.8%
100%
100%
b) Bei 3368 Teilnehmern hätte man 0.22 · 3368 = 741 Teilnehmer aus Ost erwartet und 0.78 · 3368 = 2627 Teilnehmer aus West. In der Spalte Ost bzw. West müssten wir also 2627
741 alle Werte mit dem Faktor 1086 bzw. 2282 multiplizieren. Die dann neu zu berechnenden Zeilensummen am rechten Rand können sinnvoll ins Verhältnis zu 3368 gesetzt werden
(Anteil für Deutschland). 3—3 Für die einzelnen Zellen ermitteln wir die im Falle der Unabhängigkeit (!) erwarteten absoluten Häufigkeiten als n˜j = (Zeilensumme der Zeile ) · (Spaltensumme der Spalte j) . Die Werte sind in der Tabelle unten (stark gerundet. . . ) eingetragen:
8
Zustimmung
West
Ost
++
68
33
+
402
192
1204
573
607
289
– ––
Bis auf Rundungsfehler sollten sich bei dieser Tabelle wieder die ursprünglichen Zeilen- und Spaltensummen ergeben. χ2 =
X
X (nj − ˜nj )2
Zeilen Spalten
n˜j
K∗ =
v u t
(82 − 68)2
=
68 103.9
·
+
2
3368 + 103.9 1
(19 − 33)2 33
+ . . . = 103.9
= 0.24
In der Stichprobe herrscht also eine leichte Abhängigkeit zwischen Region und Antwortverhalten zur der „Gewinnverteilungs“-Frage. Die „Richtung“ des Zusammenhangs wird dabei mit K ∗ nicht untersucht. 3—4 In der Tabelle bezeichnen Tilde-Variablen die Ränge innerhalb der jeweiligen aufsteigenden Verteilung.
˜
¯) ( ˜−˜
¯˜ 2 ( ˜ − )
y
y˜
(y˜ − ¯˜y )
(y˜ − ˜y¯)2
3000
2
-0.5
0.25
4
3
0.5
0.25
-0.25
8000
4
1.5
2.25
7
4
1.5
2.25
2.25
2000
1
-1.5
2.25
3
2
-0.5
0.25
0.75
4000
3
0.5
0.25
2
1
-1.5
2.25
-0.75 P =2
¯˜ = 2.5
P
=5
P
˜¯ = 2.5 y
Spearman Rangkorrelationskoeffizient:
rˆ = p
¯˜ · (y ¯) ˜ − ˜y (˜ − )
=5
2
5·5
= 0.4
In dieser Stichprobe gehen höhere Ränge des Einkommens tendenziell mit höheren Rängen der Zufriedenheit einher. Man hätte hier für eine deutliche schnellere Berechnung die Formel mit den Rangdifferenzen verwenden können, da hier keine Bindungen vorkommen.
9
4—1 A) C3 = 0. 6, H = 0. 2
B) C3 = 0.3, H = 0.1
C) C3 = 0. 9, H = 0. 65
D) C3 = 0.9, H = 0.65
E) C3 = 0. 9, H = 0. 65 4—2 κ=
4 + 1 − 2 · (0. 1 + 0.25 + 0.5 + 1) 4− 1
= 0.433
4—3 In beiden Branchen herrscht eine vollkommen gleichmäßige Verteilung der Merkmalssumme, d.h. = . Entsprechend sollte in beiden Fällen κ = 0 sein. 5+ 1−2·(0. 2+ 0.4+0. 6+ 0.8+ 1) Branche A: κ = =0 5−1 4—4 a) Wichtig: Daten in geordnete Urliste bringen. Die Spalte wurde hier hinzugefügt, um die Lorenzkurve zu zeichnen (nicht relevant für die Aufgabe).
π
π2
= 0.01887
0.000356
0.01887
0.2
0.4
0.02516
0.000633
0.01887 + 0.02516 = 0.0440
0.4
iOS
0.9
0.0566
0.00320
0.1006
0.6
MacOSX
1.3
0.0818
0.00668
0.1824
0.8
13.0
0.8176
1.000
1.0
System
Linux
0.3
Android
Windows P
= 15.9
0.3 15.9
0.6685 P
= 0.6793
P
= 1.346
C2 = 0.0818 + 0. 8176 = 0. 899 (90% der Seitenaufrufe entfallen auf die zwei größten Betriebssysteme) H = 0.6793 5+ 1− 2· 1.346 = 0.827 κ= 5−1 b) C2 und H bleiben gleich, κ steigt (auf 0.862) wegen noch ungleicherer Verteilung der
Mermalssumme.
10
5—1 Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, |Ω| = 11
(Achtung: Die Elementarereignisse haben unterschiedliche Auftretenswahrscheinlichkeit!)
5—2 a) Das Ereignis „Augenzahl ist 10“ kann durch 3 (aus 36 denkbaren und gleich wahrscheinlichen) Würfelkonstellation hervorgerufen werden. Die diese zu Grunde liegenden (würfelbasierten) Ereignisse disjunkt sind, können wir schreiben: P(X = 10)
=
P(
=
P( 1
=
∪
∪
)
) + P( ) + P( 1 1 + + = 36 36 36 12
)
1
b) Die einzelnen Ereignisse i.S.v. sind disjunkt, da die Augenzahlsumme nicht zwei verschiedene Zahlen gleichzeitig sein kann P(X ≥ 10) = P(X = 10) + P(X = 11) + P(X = 12) =
3+ 2+ 1 36
=
1 6
c) Hier sollten wir mit dem Komplementärereignis arbeiten (leichtere Berechnung): P(X < 10) = 1 − P(X ≥ 10) = 1 −
1 6
=
5 6
5—3 Da Y = 1 aufgrund von zwei (aus vier gleich wahrscheinlichen Münzpaar-Ereignissen zu Stande kommen kann, sollten die Wahrscheinlichkeiten bei „fairen“ Münzen betragen: P(Y = 0) =
1
P(Y = 1) =
4
1 2
P(Y = 2) =
1 4
Anmerkung: Die Überlegung zu den Münzpaar-Ereignissen war entscheidend, um überhaupt über das Abzählkriterium ßen.
|A| |Ω|
Wahrscheinlichkeiten ableiten zu können. Nicht immer sind Wahrscheinlichkeiten so einfach zu erschlie-
Wenn die Zahl der durchgeführten Experimente sehr groß wird (n → ∞), sollten sich diese
Wahrscheinlichkeiten auch in den relativen Häufigkeiten niederschlagen (umgedreht war
ja auch die statistische Definition einer Wahrscheinlichkeit). Für diesen Fall können wir eine „theoretische“ Verteilungsfunktion zeichnen (in einem F—Y Diagramm, hier nicht gezeigt), auch ohne tatsächliche Durchführung des Experiments! Y
ƒ
F
0
0.25
0.25
1
0.50
0.75
2
0.25
1.00
11
5—4 Anmerkung: Für die Berechnung ist ganz entscheidend, dass die einzelnen Schüsse als stochastisch unabhängig angenommen wurden. a) P(A ∩ B ∩ C) = 0.7 · 0. 6 · 0.2 = 0.084 ¯∩B ¯ ∩ C) ¯ = 0.3 · 0. 4 · 0. 8 = 0. 096 b) P(A ¯ ∩ C) ¯ = 0. 7 · 0. 4 · 0. 8 = 0. 224 c) P(A ∩ B
¯ ∩ C) ¯ + P( A ¯ ∩B∩ C ¯ ) + P(A¯ ∩ B ¯ ∩ C) = 0. 224 + 0. 144 + 0. 024 = 0.392 d) P(A ∩ B ¯ ∩ C) ¯ = 1 − 0. 096 = 0. 904 e) P(A ∪ B ∪ C) = 1 − P(∩A ∩ B
5—5 Wegen stochastischer Unabhängigkeit gilt P(A ∩ B) = P(A) · P(B) →
P(B) =
P(A ∩ B) P(A)
=
0.42 0.7
= 0.6
P(A ∪...