Notizen - Wintersemester 2017/2018 PDF

Title	Notizen - Wintersemester 2017/2018
Course	Statistik
Institution	Frankfurt University of Applied Sciences
Pages	35
File Size	837.6 KB
File Type	PDF
Total Downloads	12
Total Views	126

Preview

CLICK TO PREVIEW PDF

Summary

Wintersemester 2017/2018...

Description

Wirtschaftsstatistik 2017/18 – Notizen zu ausgewählten Aufgaben Nur für eingeschriebene TeilnehmerInnen und ohne Gewähr, Fehler bitte melden an [email protected] © PD Dr. Marco Sunder — Stand: 1. Februar 2018

2—1 a) Im Nenner verwenden wir den Verschiebungssatz der Varianz, im Zähler multiplizieren wir innerhalb der Summe aus. 1 P ¯ ¯ ( −  ¯ ) · (y  − y) ( y  −  y ¯ − y ¯+  ¯ y) n−1 ˆ=Ç ρ =Ç Ç Ç P P 2 P 2 1 1 1 P 1 ¯ 2 · n−1 y  − ny¯ 2 ( −  ¯ )2 · n−1 (y  − y ¯ )2   − n n−1 n−1 1 n−1

P

Rote Terme kürzen sich heraus, Summe im Zähler wird aufgelöst, Konstanten werden aus P Summen herausgezogen, wir verwenden das Schema z = n¯z (aus der Formel für arith-

metisches Mittel):

P P P ¯ + n ¯ ¯y ¯y¯ ¯ y  + n¯ y  y  − ny¯¯ − n  y  − y ¯  −  ˆ = ÇP = ÇP ρ ÇP ÇP 2 2 ¯2 · ¯2 ·   − n   − n y2 − n ¯y 2 y 2 − ny¯ 2 P

P

¯  y  − n¯ y ˆ=Ç P ρ P ¯ 2 ) · ( y 2 − ny¯2 ) ( 2 − n 

b) Wir unterstellen  = z und y  = z und setzen in die Formel ein: P 2 z z¯ z − n¯z 2 z z − n¯ ˆ=Ç P =1 ρ = P P z2 − n¯z 2 z 2 ) · ( z2 − n¯z 2 ) ( z 2 − n¯ P

c) Wir definieren ˜ =   sowie y˜ = y y  , wobei  und y Konstanten sind, und setzen in die Formel ein: ρ ˆX, ˜ Y˜

P

P ˜  y˜ − n ¯˜˜y¯  y  y  −  y n ¯y¯  y  ·ρ ˆ X,Y = Ç P = r =r P P P 2 2 2 2y ¯ 2 ) · 2y ( y2 − ny¯ 2 ) (  ˜  − n ¯˜2 ) · ( y˜ − n ¯˜y 2 ) 2 ( 2 − n 

Achtung: Im Nenner geht durch Quadrieren und Radizieren das Vorzeichen verloren. Wir schreiben dies mit Betragzeichen: ˆ X, ρ ˜ Y˜ = Fall i):  = 2, y = 2

ρ ˆ X, ˜ Y˜ =

→

2·2 |2|·|2|

 · y | | · |y |

·ρ ˆ X,Y

·ρ ˆ X,Y = ρ ˆ X,Y

(Korrelationskoeffizient bleibt unverändert)

2·1 ˆ X, ˆ X,Y = ρˆX,Y ρ ˜ = |2|·|1| · ρ ˜ Y (Korrelationskoeffizient bleibt unverändert)

Fall ii):  = 2, y = 1

→

(−1)·1 ˆ X,Y ρ ˆ X, ˆ X,Y = − ρ ˜ Y˜ = |(−1)|·|1| · ρ (Korrelationskoeffizient ändert Vorzeichen)

Fall iii)  = −1, y = 1

→

1

2—2 a) In der Tabelle unten werden die Daten nochmal in Form einer geordneten Urliste (aufsteigend sortiert) angegeben.  (neu)



2

ƒ ()

F()

1

6.5

42.25

0.0833

0.0833

2

8

64

0.0833

0.1667

3

8.5

72.25

0.0833

0.2500

4

9.5

90.25

0.0833

0.3333

5

10

100

0.2500

0.5833

6

10

100

7

10

100

8

11

121

0.0833

0.6667

9

12

144

0.0833

0.7500

10

12.5

156.25

0.0833

0.8333

11

14

196

0.0833

0.9167

12

16

256

0.0833

1.0000

Summe

128

1442

1

Spannweite: Mittelwert:

m − mn = 16 − 6.5 = 9. 5 1 1 P ¯ = n  = 12 · 128 = 10.667

[ 6] +[ 7] 2

10 + 10 2

Median (q = 0.5):

(n + 1)q = 6.5 → (0.5) =

Modus:

mod = 10 P 1 1 σˆ 2 = n−1 ( 2 − n  ¯ 2 ) = 11 (1442 − 12 · 10.6672 ) = 6.96 p p σˆ = σ ˆ 2 = 6.96 = 2.64

Varianz: Standardabweichung: Variationskoeffizient:

C.V. =

σ ˆ ¯

=

2.64 10.667

= 0.25

2

=

= 10

b) Hierzu plotten wir F() gegen  1.0

empirische Verteilungsfunktion

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 6

7

8

9

10

11

12

13

14

15

16

17

x

c) Histogramm: Die Einteilung der Klassen ist „Geschmackssache“. Hier: [ 5, 7), [ 7, 9), . . . 4

Häuﬁgkeit

3

2

1

0 5

7

9

11

13

15

17

d) Für den Box-Plot müssen wir neben Median noch die Quartile berechnen. Über den IQR ermitteln wir, ob die „Whiskers“ (max. 1.5 IQR-Einheiten von Box entfernt) noch den minimalen bzw. maximalen Wert abdecken (extreme Wert würden sonst einzeln markiert). Hier: QR = (0.75) − (0.25) = 12.25 − 9 = 3. 25, d.h. die Whiskers dürften nach unten bis

9 − 1. 5 · 3.25 = 4.125 <  mn bzw. nach oben bis 12.25 + 1.5 · 3.25 = 16.875 > m

reichen. In diesem Fall können wir also mn bzw. m mit den Whiskers zeichnen ohne

weitere „Ausreißer“ zu markieren. 3

18

16

14 12.25 12

10 9 8 6.5 6

4

GBP 1 GBP e) Wenn wir alle -Werte mit dem Wechselkurs  = 1.12 EUR = 0.893 EUR multiplizieren (˜  =  ·  ), dann könnten wir die Maßzahlen nochmals für „Pfund“ ausrechnen.

Einsetzen in die jeweilige „Formel“ zeigt, dass Spannweite, Mittelwert, Median, Modus sich P mit Faktor  proportional ändern (hier werden also alle etwas kleiner), z.B. ¯˜ = n1  ˜ = P 1 ( ·  ) =  ¯  = 0.893 · ¯  .  n Die Varianz wird mit Faktor 2 multipliziert: ˆ 2˜ = σ X

1 n− 1

X

¯˜ 2 = ˜  − ) (

1 n− 1

X

2 2 ¯) =  ( −  

Folglich beträgt die Standardabweichung ˆσX˜ = ent C.V. =

||·σˆX ·¯ .

Ç

1 n− 1

X

¯ 2 = 2 ˆσX2 ( − )

ˆ X , und der Variationskoeffizi2σˆ2X = || · σ

Für (wie hier) positives  bedeutet das, dass sich der Variationskoeffizient durch die Veränderung der Maßeinheit nicht ändert.

4

2—3 a)

b)

5

c) Wir können die Formel aus 2—1 verwenden mit „BW“ als  und „HE“ als y . t

t

yt

2t

y 2t

t · y t

1

5.7

3.9

32.49

15.21

22.23

2

1.2

1.4

1.44

1.96

1.68

3

-6.8

-4.8

46.24

23.04

32.64

4

8.3

3.5

68.89

12.25

29.05

5

5.5

3.7

30.25

13.69

20.35

6

1.9

1.0

3.61

1

1.9

7

2.3

2.6

5.29

6.76

5.98

8

3.3

4.1

10.89

16.81

13.53

9

5.2

3.1

27.04

9.61

16.12

10

3.6

2.8

12.96

7.84

10.08

Summe

30.2

21.3

239.1

108.17

153.56

Hier ergibt sich  ¯= effizient berechnen:

30 . 2 10

ρˆX,Y = Æ

= 3.02 bzw.  ¯=

21 . 3 10

= 2.13. Damit können wir den Korrelationsko-

153. 56 − 10 · 3.02 · 2. 13 (239.1 − 10 · 3. 022 ) · (108.17 − 10 · 2. 132 )

= 0.9259

Hier liegt also ein recht starker positiver (linearer) Zusammenhang zwischen den Wachstumsraten der Länder vor. (Das Krisenjahr 2009 hat daran sicher großen Anteil; ohne dieses Jahr wäre der Wert nur 0.7.) d) Hier soll die jährliche Wachstumsrate ermittelt werden, mit der das BIP von Ende 2006 [sic] bis Ende 2016 gewachsen ist. Diese ist nicht genau identisch mit dem arithmetischen Mittel der Wachstumsraten der einzelnen Jahre. Wir ermitteln sie, indem wir das yt berechnen, um dann daraus wiegeometrische Mittel der Wachstumsfaktoren t = 1 + 100 ¯ ¯ der eine Wachstumsrate zu ziehen. v u T uY T ¯ geom. = t t  t=1

=

(1.039 · 1. 014 · 0.952 · 1.035 · 1.037 · 1. 010 · 1. 026 · 1.041 · 1. 031 · 1.028)0.1

=

1.02098

Die durchschnittliche jährliche Wachstumsrate betrug also (  ¯ geom. − 1) · 100% = 2.1%.

6

2—5 Schaut man sich die Formel zur Berechnung der Kovarianz an, sieht man, dass die „Reihenfolge“ der beiden Variablen egal ist, d.h. ˆσX,Y = σˆY,X . Entsprechend ist die Kovarianzmatrix C eigentlich symmetrisch, die Werte rechts oben wurden in der Aufgabe nur nicht angegeben (Redundanz). Wollen wir den Korrelationskoeffizient für die Variablenkombination Z (Zeile)—S (Spalte) ermitteln, verwenden wir dieses Schema (da Varianzen entlang der Hauptdiagonale stehen): ρ ˆ Z,S = Æ

C[Z,S] C[Z,Z ] · C[ S,S]

,

wobei mit CZ,S das Element (Skalar) der Matrix in Zeile Z und Spalte S gemeint ist. So wäre z.B. der Korrelationskoeffizient für PISA-Punkte Lesen und PISA-Punkte Rechnen ρ ˆ X2,X1 = 153 p = 0.8455. Wir können alle bivariaten Korrelationskoeffizienten wieder in einer 177·185

Matrix/Tabelle zusammenfassen: X1

X2

X3

X1

1

X2

0.8455

1

X3

0.3521

0.5102

1

X4

0.0957

0.3778

0.4157

X4

1

Vorsicht: Korrelationen nicht vorschnell als kausale Zusammenhänge (Ursache-WirkungsBeziehungen) interpretieren. Anmerkungen zur Untersuchung bivariater Zusammenhänge Wir haben im Kurs drei Verfahren zur Untersuchung von Zusammenhängen zwischen  und y besprochen: • Bravais-Pearson Korrelationskoeffizient ρˆ (Wertebereich −1 bis 1) • Spearman Rangkorrelationskoeffizient rˆ (Wertebereich −1 bis 1) • Kontingenzkoeffizient K ∗ (Wertebereich 0 bis 1) Welches Verfahren zum Einsatz kommen kann, hängt dabei vom Skalenniveau der Variablen ab. y

 nominal

ordinal

metrisch

nominal

K∗

K∗

K∗

ordinal

K∗

rˆ, K ∗

rˆ, K ∗

metrisch

K∗

rˆ, K ∗

ρ, ˆ rˆ, K ∗

Bei metrischen Variablen mit vielen möglichen Ausprägungen ist es sinnvoll, die Werte der Variable(n) für die Berechnung von K ∗ in Klassen aufzuteilen. 7

3—1 a) Relative Häufigkeiten ƒj =

nj PJ

j=1

nj

aus der Häufigkeitstabelle ermitteln und dann Formeln

für gruppierte Daten anwenden!

ˆσ 2 =

50 50 − 1

 ¯ = 0. 52 · 1 + 0. 1 · 2 + 0. 1 · 3 + 0. 14 · 4 + 0. 1 · 5 + 0. 04 · 6 = 2.32 ·[ 0.52(1−2.32)2 +0.1(2− 2.32)2 + 0.1(3− 2.32)2 + 0.14(4− 2.32)2 + 0.1(5− 2.32 )2 +0.04(6− 2.32)2 ] = 2.67

b) Wenn alle Haushalte gleiche Ziehungswahrscheinlichkeit haben, dann ist P(X ≤ 3) = F(3) = ƒ (1) + ƒ (2) + ƒ (3) = 0.52 + 0.1 + 0.1 = 0.72 c) Nein, der Anteil 0.52 bezieht sich auf Haushalte als statistische Einheiten. Die Zahl der P 26· 1 Personen für eine bestimmte Haushaltsgröße ist j · nj mit j j · nj = 116. D.h. 116 = 0.22

ist der Anteil der Personen mit der Eigenschaft, dass sie in Single-Haushalten leben. d) Überlegung: Häufigkeitstabelle auf Personenebene aufschreiben (n = 116).

P(Y ≤ 3) = F [y] (3) = ƒ [y] (1) + ƒ [y] (2) + ƒ [y] (3) = 0.224 + 0.086 + 0.129 = 0.439 3—2 a) Idee: Alle Werte relativ zur Spaltensumme ausdrücken (und mit 100% multiplizieren). Zustimmung

West

Ost

++

3.6%

1.7%

+

20.3%

12.1%

–

54.4%

49.4%

–– P

21.7%

36.8%

100%

100%

b) Bei 3368 Teilnehmern hätte man 0.22 · 3368 = 741 Teilnehmer aus Ost erwartet und 0.78 · 3368 = 2627 Teilnehmer aus West. In der Spalte Ost bzw. West müssten wir also 2627

741 alle Werte mit dem Faktor 1086 bzw. 2282 multiplizieren. Die dann neu zu berechnenden Zeilensummen am rechten Rand können sinnvoll ins Verhältnis zu 3368 gesetzt werden

(Anteil für Deutschland). 3—3 Für die einzelnen Zellen ermitteln wir die im Falle der Unabhängigkeit (!) erwarteten absoluten Häufigkeiten als n˜j = (Zeilensumme der Zeile ) · (Spaltensumme der Spalte j) . Die Werte sind in der Tabelle unten (stark gerundet. . . ) eingetragen:

8

Zustimmung

West

Ost

++

68

33

+

402

192

1204

573

607

289

– ––

Bis auf Rundungsfehler sollten sich bei dieser Tabelle wieder die ursprünglichen Zeilen- und Spaltensummen ergeben. χ2 =

X

X (nj − ˜nj )2

Zeilen Spalten

n˜j

K∗ =

v u t

(82 − 68)2

=

68 103.9

·

+

2

3368 + 103.9 1

(19 − 33)2 33

+ . . . = 103.9

= 0.24

In der Stichprobe herrscht also eine leichte Abhängigkeit zwischen Region und Antwortverhalten zur der „Gewinnverteilungs“-Frage. Die „Richtung“ des Zusammenhangs wird dabei mit K ∗ nicht untersucht. 3—4 In der Tabelle bezeichnen Tilde-Variablen die Ränge innerhalb der jeweiligen aufsteigenden Verteilung. 

˜

¯)  ( ˜−˜

¯˜ 2 ( ˜ − )

y

y˜

(y˜ − ¯˜y )

(y˜ − ˜y¯)2

3000

2

-0.5

0.25

4

3

0.5

0.25

-0.25

8000

4

1.5

2.25

7

4

1.5

2.25

2.25

2000

1

-1.5

2.25

3

2

-0.5

0.25

0.75

4000

3

0.5

0.25

2

1

-1.5

2.25

-0.75 P =2

¯˜ = 2.5 

P

=5

P

˜¯ = 2.5 y

Spearman Rangkorrelationskoeffizient:

rˆ = p

¯˜ · (y ¯) ˜ − ˜y (˜ − )

=5

2

5·5

= 0.4

In dieser Stichprobe gehen höhere Ränge des Einkommens tendenziell mit höheren Rängen der Zufriedenheit einher. Man hätte hier für eine deutliche schnellere Berechnung die Formel mit den Rangdifferenzen verwenden können, da hier keine Bindungen vorkommen.

9

4—1 A) C3 = 0. 6, H = 0. 2

B) C3 = 0.3, H = 0.1

C) C3 = 0. 9, H = 0. 65

D) C3 = 0.9, H = 0.65

E) C3 = 0. 9, H = 0. 65 4—2 κ=

4 + 1 − 2 · (0. 1 + 0.25 + 0.5 + 1) 4− 1

= 0.433

4—3 In beiden Branchen herrscht eine vollkommen gleichmäßige Verteilung der Merkmalssumme, d.h.   =  . Entsprechend sollte in beiden Fällen κ = 0 sein. 5+ 1−2·(0. 2+ 0.4+0. 6+ 0.8+ 1) Branche A: κ = =0 5−1 4—4 a) Wichtig: Daten in geordnete Urliste bringen. Die Spalte  wurde hier hinzugefügt, um die Lorenzkurve zu zeichnen (nicht relevant für die Aufgabe).

π

π2





= 0.01887

0.000356

0.01887

0.2

0.4

0.02516

0.000633

0.01887 + 0.02516 = 0.0440

0.4

iOS

0.9

0.0566

0.00320

0.1006

0.6

MacOSX

1.3

0.0818

0.00668

0.1824

0.8

13.0

0.8176

1.000

1.0

System



Linux

0.3

Android

Windows P

= 15.9

0.3 15.9

0.6685 P

= 0.6793

P

= 1.346

C2 = 0.0818 + 0. 8176 = 0. 899 (90% der Seitenaufrufe entfallen auf die zwei größten Betriebssysteme) H = 0.6793 5+ 1− 2· 1.346 = 0.827 κ= 5−1 b) C2 und H bleiben gleich, κ steigt (auf 0.862) wegen noch ungleicherer Verteilung der

Mermalssumme.

10

5—1 Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, |Ω| = 11

(Achtung: Die Elementarereignisse haben unterschiedliche Auftretenswahrscheinlichkeit!)

5—2 a) Das Ereignis „Augenzahl ist 10“ kann durch 3 (aus 36 denkbaren und gleich wahrscheinlichen) Würfelkonstellation hervorgerufen werden. Die diese zu Grunde liegenden (würfelbasierten) Ereignisse disjunkt sind, können wir schreiben: P(X = 10)

=

P(

=

P( 1

=

∪

∪

)

) + P( ) + P( 1 1 + + = 36 36 36 12

)

1

b) Die einzelnen Ereignisse i.S.v.  sind disjunkt, da die Augenzahlsumme nicht zwei verschiedene Zahlen gleichzeitig sein kann P(X ≥ 10) = P(X = 10) + P(X = 11) + P(X = 12) =

3+ 2+ 1 36

=

1 6

c) Hier sollten wir mit dem Komplementärereignis arbeiten (leichtere Berechnung): P(X < 10) = 1 − P(X ≥ 10) = 1 −

1 6

=

5 6

5—3 Da Y = 1 aufgrund von zwei (aus vier gleich wahrscheinlichen Münzpaar-Ereignissen zu Stande kommen kann, sollten die Wahrscheinlichkeiten bei „fairen“ Münzen betragen: P(Y = 0) =

1

P(Y = 1) =

4

1 2

P(Y = 2) =

1 4

Anmerkung: Die Überlegung zu den Münzpaar-Ereignissen war entscheidend, um überhaupt über das Abzählkriterium ßen.

|A| |Ω|

Wahrscheinlichkeiten ableiten zu können. Nicht immer sind Wahrscheinlichkeiten so einfach zu erschlie-

Wenn die Zahl der durchgeführten Experimente sehr groß wird (n → ∞), sollten sich diese

Wahrscheinlichkeiten auch in den relativen Häufigkeiten niederschlagen (umgedreht war

ja auch die statistische Definition einer Wahrscheinlichkeit). Für diesen Fall können wir eine „theoretische“ Verteilungsfunktion zeichnen (in einem F—Y Diagramm, hier nicht gezeigt), auch ohne tatsächliche Durchführung des Experiments! Y

ƒ

F

0

0.25

0.25

1

0.50

0.75

2

0.25

1.00

11

5—4 Anmerkung: Für die Berechnung ist ganz entscheidend, dass die einzelnen Schüsse als stochastisch unabhängig angenommen wurden. a) P(A ∩ B ∩ C) = 0.7 · 0. 6 · 0.2 = 0.084 ¯∩B ¯ ∩ C) ¯ = 0.3 · 0. 4 · 0. 8 = 0. 096 b) P(A ¯ ∩ C) ¯ = 0. 7 · 0. 4 · 0. 8 = 0. 224 c) P(A ∩ B

¯ ∩ C) ¯ + P( A ¯ ∩B∩ C ¯ ) + P(A¯ ∩ B ¯ ∩ C) = 0. 224 + 0. 144 + 0. 024 = 0.392 d) P(A ∩ B ¯ ∩ C) ¯ = 1 − 0. 096 = 0. 904 e) P(A ∪ B ∪ C) = 1 − P(∩A ∩ B

5—5 Wegen stochastischer Unabhängigkeit gilt P(A ∩ B) = P(A) · P(B) →

P(B) =

P(A ∩ B) P(A)

=

0.42 0.7

= 0.6

P(A ∪...