1 Moodle 03 - Analyse univariater Daten PDF

Title	1 Moodle 03 - Analyse univariater Daten
Course	Betriebsstatistik
Institution	Ostbayerische Technische Hochschule Regensburg
Pages	94
File Size	2.9 MB
File Type	PDF
Total Downloads	23
Total Views	122

Preview

CLICK TO PREVIEW PDF

Summary

Skript kapitle 3...

Description

Teil II

Deskriptive Statistik

Prof. Dr. Thomas Schreck

Statistik

1

Analyse univariater Daten

„A basic literacy in statistics will one day be as necessary for efficient citizenship as the ability to read and write“. H.G. Wells (engl. Schriftsteller, 1866-1946)

Prof. Dr. Thomas Schreck

Statistik

2

3. Analyse univariater Daten

In diesem Kapitel lernen Sie

wie Sie ein Merkmal in Abhängigkeit des Skalenniveaus analysieren



Graphische und tabellarische Darstellungsformen Häufigkeitstabellen, Histogramme und Verteilungsfunktionen



Statistischer Kenngrößen Lagemaße (Modus, Median, arithmetisches Mittel, …) Streuungsmaße (Varianz, Standardabweichung, Spannweite, …) Höhere Momente von Verteilungen

Prof. Dr. Thomas Schreck

Statistik

3

3. Analyse univariater Daten

1. Darstellung univariater Datensätze

Unter einer Häufigkeitsverteilung versteht man die tabellarische oder grafische Darstellung der geordneten Merkmalsausprägungen und den ihnen zugeordneten absoluten bzw. relativen Häufigkeiten. Die Möglichkeiten der Darstellung hängen allerdings vom Skalenniveau der Merkmale ab. Wir unterscheiden die Darstellung qualitativer und quantitativer Merkmale



Qualitative Merkmale zeichnen sich dadurch aus, dass die Merkmalsausprägungen Kategorien sind. Dabei sind die Kategorien bei einem nominalskalierten Merkmal ungeordnet und bei einem ordinalskalierten Merkmal geordnet.



Die Merkmalsausprägungen quantitativer Merkmale sind Zahlen, mit denen man rechnen darf. Im Verhältnis zu qualitativen Merkmalen gibt es deshalb viel mehr Möglichkeiten, die Verteilung quantitativer Merkmale darzustellen und zu beschreiben.

Prof. Dr. Thomas Schreck

Statistik

4

3. Analyse univariater Daten

1.1 Darstellung qualitativer Merkmale – Nominalskala Bei der Datenanalyse qualitativer Merkmale interessiert uns, wie viele Merkmalsträger die einzelnen Merkmalsausprägungen aufweisen. Beispiel:

  1211 Wohnungen haben   314 einen Balkon.

Im Rahmen der Mietspiegelerhebung wurde gefragt, ob die Wohnung

  897 keinen

über einen Balkon verfügt. Von den

  1 (kein Balkon) und   2 (mit Balkon)

Balkon und

Merkmalsausprägungen: Absolute Häufigkeit:

Relative Häufigkeit:

1  897, 2  314

1    0,741, 2    0,239 

1  2  Prof. Dr. Thomas Schreck

Statistik

 

 1



5

3. Analyse univariater Daten

1.1 Darstellung qualitativer Merkmale – Nominalskala Aufbau einer Häufigkeitstabelle und grafische Darstellung Merkmalsausprägu Merkmalsausprägung ng

Absolute Häufigke Häufigkeit it



Relative Häufigkeit



Wohnung ohne Balkon

897

897/1211 = 74,1%

Wohnung mit Balkon

314

314/1211 = 25,9%



1211

100,0%

314, 26%

1000

897, 74%

500

0 Wohung ohne Balkon Wohnung mit Balkon

Wohung ohne Balkon Wohnung mit Balkon Prof. Dr. Thomas Schreck

Statistik

6

3. Analyse univariater Daten

1.1 Darstellung qualitativer Merkmale – Nominalskala

Absolute Häufigkeit: Anzahl der Merkmalsträger, die eine Merkmalsausprägung aufweisen:



󰇛 󰇜 oder kurz  , wobei

die Summe der absoluten Häufigkeiten aller Merkmalsausprägungen der Gesamtzahl der



Beobachtungen entspricht.



 󰇛 󰇜      



Relative Häufigkeit: Anteil der Merkmalsträger, die eine Merkmalsausprägung aufweisen:

 

 ,   

   ⋯    ∑   1

Wir stellen die absoluten und relativen Häufigkeiten in einer sogenannten Häufigkeitstabelle zusammen. Prof. Dr. Thomas Schreck

Statistik

7

3. Analyse univariater Daten

1.2 Darstellung qualitativer Merkmale – Ordinalskala

Ordinalskalierte Merkmale sind geordnet. Daher können die absoluten und relativen Häufigkeiten kumuliert werden.

Beispiel: Klausurnoten der Teilnehmer des letzten Statistik-Klausur





Merkmals-

k=

ausprägung

1

sehr gut

3

2

gut

7

10

25,9%

37,0%

3

befriedigend

8

18

29,6%

66,7%

4

ausreichend

6

24

22,2%

88,9%

5

mangelhaft

2

26

7,4%

96,3%

6

ungenügend

1

27

3,7%

100,0%



27

Prof. Dr. Thomas Schreck

Absolute



Klasse

Häufigkeit

Kumulierte absolute Häufigkeit 3

Relative Häufigkeit 11,1%



Kumulierte relative Häufigkeit 11,1%

100,0%

Statistik

8

3. Analyse univariater Daten

1.2 Darstellung qualitativer Merkmale – Ordinalskala

Fragen:

Wie viele Studenten (absolut und in Prozent) haben mit der Note gut oder besser bestanden? Wie viele Studenten (absolut und in Prozent) sind bei der letzten Klausur durchgefallen?





Merkmals-

k=

ausprägung

1

sehr gut

3

2

gut

7

10

25,9%

37,0%

3

befriedigend

8

18

29,6%

66,7%

4

ausreichend

6

24

22,2%

88,9%

5

mangelhaft

2

26

7,4%

96,3%

6

ungenügend

1

27

3,7%

100,0%



27

Prof. Dr. Thomas Schreck

Absolute



Klasse

Häufigkeit

Kumulierte absolute Häufigkeit 3

Relative Häufigkeit 11,1%



Kumulierte relative Häufigkeit 11,1%

100,0%

Statistik

9

3. Analyse univariater Daten

1.2 Darstellung qualitativer Merkmale – Ordinalskala

 

Kumulierte absolute Häufigkeit:

oder gleich

 



gibt die Anzahl der Merkmalsträger an, die eine Merkmalsausprägung kleiner



besitzen:

    󰇛 󰇜 

Kumulierte relative Häufigkeit:

gleich



gibt den Anteil der Merkmalsträger, die eine Merkmalsausprägung kleiner oder besitzen, an.

Prof. Dr. Thomas Schreck

 





1   󰇛 󰇜   󰇛 󰇜  



Statistik

10

Was ist der Unterschied zwischen „diskret“ und „stetig“ quantitativen Merkmalen?

3. Analyse univariater Daten

1.3 Darstellung quantitativer Merkmale – Kardinalskala

 Merkmalsausprägungen:

Ausgangspunkt der Analyse quantitativer Merkmale ist die Urliste, d.h. ein Merkmal X mit

Dabei ist



 ,  , … , 

die Merkmalsausprägung des ersten Merkmalsträgers,

prägung des zweiten Merkmalsträgers, usw.



die Merkmalsaus-

Können wir genau so vorgehen wie bei qualitativen Merkmalen?



Ja, wenn es sich um diskrete quantitative Merkmale handelt.



Nein, wenn es sich um stetige quantitative Merkmale handelt.

Prof. Dr. Thomas Schreck

Statistik

11

3. Analyse univariater Daten

1.3.1 Darstellung (diskreter) quantitativer Merkmale

Beispiel:

Wir betrachten das Merkmal Anzahl Geschwister von zwanzig zufällig ausgewählten Personen. Die „Urliste“ sieht folgendermaßen aus: 1 2 1 3 0 2 2 1 1 1 1 1 1 2 1 1 0 1 2 1

󰇛󰇜 , 󰇛󰇜 , ..., 󰇛󰇜 ,

Die Urliste ist unübersichtlich, deshalb bilden wir aus der Urliste den geordneten Datensatz:

mit ist.

󰇛󰇜     ⋯  󰇛󰇜 , wobei 󰇛󰇜

)

die kleinste und

󰇛󰇜

ist die größte Beobachtung

Dieser lautet: 0 0 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 An diesem können wir sofort den kleinsten Wert 0 und den größten Wert 3 erkennen.

Prof. Dr. Thomas Schreck

Statistik

12

Fragen:

•

3. Analyse univariater Date

󰇛󰇜  󰇛  󰇜

Wie viele Studenten (absolut und in Prozent) haben höchstens zwei Geschwister?

•

󰇛  󰇜  1  󰇛󰇜

Wie viele Studenten (absolut und in Prozent) haben mehr als zwei Geschwister?

•

          󰇛󰇜

Wie viele Studenten (absolut und in Prozent) haben mindestens ein aber höchstens zwei Geschwister?

1.3.1 Darstellung (diskreter) quantitativer Merkmale Häufigkeitstabelle des Merkmals Geschwister absolute

Anzahl Geschwister

Häufigkeit





kumulierte absolute Häufigkeit 2

relative Häufigkeit

Häufigkeit

2

1

12

14

60%

70%

2

5

19

25%

95%

3

1

20

5%

100%



20

10%

100% 100% kumulierte relative Häufigkeit

12 absolute Häufigkeit



kumulierte relative

0

10 8 6 4 2

80% 60% 40% 20% 0%

0 0

1

2

0

3

1

2

3

Anzahl Geschwister

Anzahl Geschwister

Prof. Dr. Thomas Schreck

10%



Statistik

13

3. Analyse univariater Daten

1.3.1 Darstellung (diskreter) quantitativer Merkmale Häufigkeitstabelle des Merkmals Geschwister absolute

Anzahl Geschwister

Häufigkeit





kumulierte absolute Häufigkeit

Häufigkeit 10%





kumulierte relative Häufigkeit

0

2

1

12

14

60%

70%

2

5

19

25%

95%

3

1

20

5%

100%



20

Fragen:

2

relative

10%

100%

Wie viele Studenten (absolut und in Prozent) haben höchstens zwei Geschwister? Wie viele Studenten (absolut und in Prozent) haben mehr als zwei Geschwister? Wie viele Studenten (absolut und in Prozent) haben mehr als zwei aber höchstens drei Geschwister?

Prof. Dr. Thomas Schreck

Statistik

14

3. Analyse univariater Daten

1.3.1 Darstellung (diskreter) quantitativer Merkmale

∈

󰇛  󰇜. Dies ist der Anteil der die kleiner oder gleich  sind. Jeder reellen Zahl  wird also ein Wert     nennen die zugehörige Funktion die empirische Verteilungsfunktion 󰇛󰇜Sie ist

Bei einem quantitativen Merkmal können wir die kumulierten relativen Häufigkeiten für alle reellen Zahlen bestimmen. Für jedes Beobachtungen, zugeordnet. Wir definiert durch:

bezeichnen wir diese mit

󰇛󰇜  󰇛  󰇜

󰇛  󰇜der Merkmalsträger, deren Merkmalsausprägung größer als der

Mit der empirischen Verteilungsfunktion kann man relative Häufigkeiten für Intervalle bestimmen.



So erhält man den Anteil Wert

ist, durch:

Den Anteil

󰇛    󰇜

bestimmt man durch

Prof. Dr. Thomas Schreck

󰇛  󰇜  1  󰇛󰇜

der Merkmalsträger, deren Merkmalsausprägung im Intervall

          󰇛󰇜 Statistik

󰇛, 󰇠

liegt,

15

3. Analyse univariater Daten

󰇛󰇜 des Merkmals Anzahl Geschwister:

1.3.1 Darstellung (diskreter) quantitativer Merkmale Empirische Verteilungsfunktion

0,10 0,70    0,95 1,00

Prof. Dr. Thomas Schreck

für für für für

0 01 12 23

Statistik

16

3. Analyse univariater Daten

 Klassi Klassierte erte Daten)

1.3.2 Darstellung (stetiger) quantitativer Merkmale (

Stetige Merkmale haben unendlich viele Merkmalsausprägungen. Deshalb macht es wenig Sinn, die Häufigkeit für einzelne Merkmalsausprägungen zu rechnen. Aus diesem Grunde bildet man sogenannte Klassen und betrachtet die Häufigkeit für diese Klassen.

∗ 

∗ .

Man fasst also mehrere Werte zusammen. Wir bezeichnen die Untergrenze der i-ten Klasse

mit

󰇟∗ , ∗ 󰇠,

Obergrenze

zur

und

die

Klasse,

Obergrenze

die

mit

1

Untergrenze

während die i-te Klasse für

Bis

auf

hingegen

von der Form

einer links offenen und rechts abgeschlossenen Klasse. Klassen 1

⋮

2

k

Prof. Dr. Thomas Schreck

󰇟∗ , ∗ 󰇠

Inter Intervall vall

die



absolute Häufigkeit

󰇛∗ , ∗ 󰇠



⋮

⋮

∗ 󰇛 , ∗ 󰇠

 Statistik

erste

󰇛∗, ∗ 󰇠

nicht.

Die



Klasse

erste

gehört

Klasse

ist

die also

ist. Man spricht von



relative Häufig Häufigkeit keit





⋮

 17

Frage: Wie viele Studenten haben (absolut und in Prozent)

3. Analyse univariater Daten

mehr als 500 EUR oder 750 EUR zur freien Verfügung?

 Klassi Klassierte erte Daten)

1.3.2 Darstellung (stetiger) quantitativer Merkmale (

Beispiel: Wie betrachten das Merkmal zur Verfügung stehendes Einkommen nach Abzug der notwendigsten Lebenshaltungskosten für Miete, Nahrung, PKW etc.

∗  0, ∗  100, ∗  250, ∗  500, ∗  1000.

und bilden die vier Klassen [0;100], (100;250], (250;500] und (500;1000]. Es gilt

Allgemein: Untergrenze der i-ten Klasse mit

Klasse

Einkommen nach Abzug der Lebenshaltungskosten

Absolute Häufigkeit

in EUR 1

0

≤ x ≤ 100



∗ 

und die Obergrenze mit Kumulierte absolute

Häufigkeit

17

17



∗

relative Häufigkeit



kumulierte relative Häufigkeit

20,7%

20,7%

2

100 < x

≤ 250

31

48

37,8%

58,5%

3

250 < x

≤ 500

25

73

30,5%

89,0%

≤ 1000

9

82

11,0%

100,0%

4

500 < x



Prof. Dr. Thomas Schreck

82



100,0%

Statistik

18

3. Analyse univariater Daten

 Klassi Klassierte erte Daten)

1.3.2 Darstellung (stetiger) quantitativer Merkmale (

Beispiel: Empirische Dichtefunktion – Einkommen nach Abzug der Lebenshaltungskosten

Falsche Darstellung

Korrekte Darstellung

Die Fläche einer jeden Klasse entspricht der relativen Häufigkeit fi

Prof. Dr. Thomas Schreck

Statistik

19

3. Analyse univariater Daten

 Klassi Klassierte erte Daten)

1.3.2 Darstellung (stetiger) quantitativer Merkmale (

Falls sich die Klassenbreiten unterscheiden, muss dies bei der grafischen Darstellung (Histogramm) berücksichtigt werden

 Berechnung der

empirischen Dichte

X-Achse: Merkmalsausprägungen mit Klassenaufteilung. Klassenbreite ist

⇒ Höhe des Rechtecks berechnet

∆ .

Y-Achse: Fläche des Rechtecks über einer Klasse entspricht der relativen Häufigkeit dieser Klasse

󰆹  

sich aus

 ∆

 󰆹   󰇱∆ 0

für

∗    ∗ 

Die zugehörige Funktion heißt empirische Dichtefunktion:

Prof. Dr. Thomas Schreck

für

sonst

∗     ∗

Statistik



∆

󰆹 

20

3. Analyse univariater Daten

 Klassi Klassierte erte Daten)

1.3.2 Darstellung (stetiger) quantitativer Merkmale (

Beispiel: Wie

viel

Geld

stehen

Ihnen

persönlich

monatlich

nach

Abzug

der

notwendigsten

Lebenshaltungskosten für Miete, Nahrung, PKW etc. zum freien Ausgeben zur Verfügung?

Einkommen zur

relative

Klassenbreite

Empirische

freien Verfügung

Häufigkeit

in 100 EUR

Dichte

in EUR

0

≤ x ≤ 100



∆x

󰆹

Klasse entspricht der relativen Häufigkeit fi

20,7%

1,0

20,7%

100 < x

≤ 250

37,8%

1,5

25,2%

250 < x

≤ 500

30,5%

2,5

12,2%

≤ 1000

11,0%

5,0

2,2%

500 < x



Prof. Dr. Thomas Schreck

100,0%

󰆹  

Die Fläche einer jeden

 ∆

 für

∗     ∗ Statistik

21

3. Analyse univariater Daten

 Klassi Klassierte er...