Title | 1 Moodle 03 - Analyse univariater Daten |
---|---|
Course | Betriebsstatistik |
Institution | Ostbayerische Technische Hochschule Regensburg |
Pages | 94 |
File Size | 2.9 MB |
File Type | |
Total Downloads | 23 |
Total Views | 122 |
Skript kapitle 3...
Teil II
Deskriptive Statistik
Prof. Dr. Thomas Schreck
Statistik
1
Analyse univariater Daten
„A basic literacy in statistics will one day be as necessary for efficient citizenship as the ability to read and write“. H.G. Wells (engl. Schriftsteller, 1866-1946)
Prof. Dr. Thomas Schreck
Statistik
2
3. Analyse univariater Daten
In diesem Kapitel lernen Sie
wie Sie ein Merkmal in Abhängigkeit des Skalenniveaus analysieren
Graphische und tabellarische Darstellungsformen Häufigkeitstabellen, Histogramme und Verteilungsfunktionen
Statistischer Kenngrößen Lagemaße (Modus, Median, arithmetisches Mittel, …) Streuungsmaße (Varianz, Standardabweichung, Spannweite, …) Höhere Momente von Verteilungen
Prof. Dr. Thomas Schreck
Statistik
3
3. Analyse univariater Daten
1. Darstellung univariater Datensätze
Unter einer Häufigkeitsverteilung versteht man die tabellarische oder grafische Darstellung der geordneten Merkmalsausprägungen und den ihnen zugeordneten absoluten bzw. relativen Häufigkeiten. Die Möglichkeiten der Darstellung hängen allerdings vom Skalenniveau der Merkmale ab. Wir unterscheiden die Darstellung qualitativer und quantitativer Merkmale
Qualitative Merkmale zeichnen sich dadurch aus, dass die Merkmalsausprägungen Kategorien sind. Dabei sind die Kategorien bei einem nominalskalierten Merkmal ungeordnet und bei einem ordinalskalierten Merkmal geordnet.
Die Merkmalsausprägungen quantitativer Merkmale sind Zahlen, mit denen man rechnen darf. Im Verhältnis zu qualitativen Merkmalen gibt es deshalb viel mehr Möglichkeiten, die Verteilung quantitativer Merkmale darzustellen und zu beschreiben.
Prof. Dr. Thomas Schreck
Statistik
4
3. Analyse univariater Daten
1.1 Darstellung qualitativer Merkmale – Nominalskala Bei der Datenanalyse qualitativer Merkmale interessiert uns, wie viele Merkmalsträger die einzelnen Merkmalsausprägungen aufweisen. Beispiel:
1211 Wohnungen haben 314 einen Balkon.
Im Rahmen der Mietspiegelerhebung wurde gefragt, ob die Wohnung
897 keinen
über einen Balkon verfügt. Von den
1 (kein Balkon) und 2 (mit Balkon)
Balkon und
Merkmalsausprägungen: Absolute Häufigkeit:
Relative Häufigkeit:
1 897, 2 314
1 0,741, 2 0,239
1 2 Prof. Dr. Thomas Schreck
Statistik
1
5
3. Analyse univariater Daten
1.1 Darstellung qualitativer Merkmale – Nominalskala Aufbau einer Häufigkeitstabelle und grafische Darstellung Merkmalsausprägu Merkmalsausprägung ng
Absolute Häufigke Häufigkeit it
Relative Häufigkeit
Wohnung ohne Balkon
897
897/1211 = 74,1%
Wohnung mit Balkon
314
314/1211 = 25,9%
1211
100,0%
314, 26%
1000
897, 74%
500
0 Wohung ohne Balkon Wohnung mit Balkon
Wohung ohne Balkon Wohnung mit Balkon Prof. Dr. Thomas Schreck
Statistik
6
3. Analyse univariater Daten
1.1 Darstellung qualitativer Merkmale – Nominalskala
Absolute Häufigkeit: Anzahl der Merkmalsträger, die eine Merkmalsausprägung aufweisen:
oder kurz , wobei
die Summe der absoluten Häufigkeiten aller Merkmalsausprägungen der Gesamtzahl der
Beobachtungen entspricht.
Relative Häufigkeit: Anteil der Merkmalsträger, die eine Merkmalsausprägung aufweisen:
,
⋯ ∑ 1
Wir stellen die absoluten und relativen Häufigkeiten in einer sogenannten Häufigkeitstabelle zusammen. Prof. Dr. Thomas Schreck
Statistik
7
3. Analyse univariater Daten
1.2 Darstellung qualitativer Merkmale – Ordinalskala
Ordinalskalierte Merkmale sind geordnet. Daher können die absoluten und relativen Häufigkeiten kumuliert werden.
Beispiel: Klausurnoten der Teilnehmer des letzten Statistik-Klausur
Merkmals-
k=
ausprägung
1
sehr gut
3
2
gut
7
10
25,9%
37,0%
3
befriedigend
8
18
29,6%
66,7%
4
ausreichend
6
24
22,2%
88,9%
5
mangelhaft
2
26
7,4%
96,3%
6
ungenügend
1
27
3,7%
100,0%
27
Prof. Dr. Thomas Schreck
Absolute
Klasse
Häufigkeit
Kumulierte absolute Häufigkeit 3
Relative Häufigkeit 11,1%
Kumulierte relative Häufigkeit 11,1%
100,0%
Statistik
8
3. Analyse univariater Daten
1.2 Darstellung qualitativer Merkmale – Ordinalskala
Fragen:
Wie viele Studenten (absolut und in Prozent) haben mit der Note gut oder besser bestanden? Wie viele Studenten (absolut und in Prozent) sind bei der letzten Klausur durchgefallen?
Merkmals-
k=
ausprägung
1
sehr gut
3
2
gut
7
10
25,9%
37,0%
3
befriedigend
8
18
29,6%
66,7%
4
ausreichend
6
24
22,2%
88,9%
5
mangelhaft
2
26
7,4%
96,3%
6
ungenügend
1
27
3,7%
100,0%
27
Prof. Dr. Thomas Schreck
Absolute
Klasse
Häufigkeit
Kumulierte absolute Häufigkeit 3
Relative Häufigkeit 11,1%
Kumulierte relative Häufigkeit 11,1%
100,0%
Statistik
9
3. Analyse univariater Daten
1.2 Darstellung qualitativer Merkmale – Ordinalskala
Kumulierte absolute Häufigkeit:
oder gleich
gibt die Anzahl der Merkmalsträger an, die eine Merkmalsausprägung kleiner
besitzen:
Kumulierte relative Häufigkeit:
gleich
gibt den Anteil der Merkmalsträger, die eine Merkmalsausprägung kleiner oder besitzen, an.
Prof. Dr. Thomas Schreck
1
Statistik
10
Was ist der Unterschied zwischen „diskret“ und „stetig“ quantitativen Merkmalen?
3. Analyse univariater Daten
1.3 Darstellung quantitativer Merkmale – Kardinalskala
Merkmalsausprägungen:
Ausgangspunkt der Analyse quantitativer Merkmale ist die Urliste, d.h. ein Merkmal X mit
Dabei ist
, , … ,
die Merkmalsausprägung des ersten Merkmalsträgers,
prägung des zweiten Merkmalsträgers, usw.
die Merkmalsaus-
Können wir genau so vorgehen wie bei qualitativen Merkmalen?
Ja, wenn es sich um diskrete quantitative Merkmale handelt.
Nein, wenn es sich um stetige quantitative Merkmale handelt.
Prof. Dr. Thomas Schreck
Statistik
11
3. Analyse univariater Daten
1.3.1 Darstellung (diskreter) quantitativer Merkmale
Beispiel:
Wir betrachten das Merkmal Anzahl Geschwister von zwanzig zufällig ausgewählten Personen. Die „Urliste“ sieht folgendermaßen aus: 1 2 1 3 0 2 2 1 1 1 1 1 1 2 1 1 0 1 2 1
, , ..., ,
Die Urliste ist unübersichtlich, deshalb bilden wir aus der Urliste den geordneten Datensatz:
mit ist.
⋯ , wobei
)
die kleinste und
ist die größte Beobachtung
Dieser lautet: 0 0 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 An diesem können wir sofort den kleinsten Wert 0 und den größten Wert 3 erkennen.
Prof. Dr. Thomas Schreck
Statistik
12
Fragen:
•
3. Analyse univariater Date
Wie viele Studenten (absolut und in Prozent) haben höchstens zwei Geschwister?
•
1
Wie viele Studenten (absolut und in Prozent) haben mehr als zwei Geschwister?
•
Wie viele Studenten (absolut und in Prozent) haben mindestens ein aber höchstens zwei Geschwister?
1.3.1 Darstellung (diskreter) quantitativer Merkmale Häufigkeitstabelle des Merkmals Geschwister absolute
Anzahl Geschwister
Häufigkeit
kumulierte absolute Häufigkeit 2
relative Häufigkeit
Häufigkeit
2
1
12
14
60%
70%
2
5
19
25%
95%
3
1
20
5%
100%
20
10%
100% 100% kumulierte relative Häufigkeit
12 absolute Häufigkeit
kumulierte relative
0
10 8 6 4 2
80% 60% 40% 20% 0%
0 0
1
2
0
3
1
2
3
Anzahl Geschwister
Anzahl Geschwister
Prof. Dr. Thomas Schreck
10%
Statistik
13
3. Analyse univariater Daten
1.3.1 Darstellung (diskreter) quantitativer Merkmale Häufigkeitstabelle des Merkmals Geschwister absolute
Anzahl Geschwister
Häufigkeit
kumulierte absolute Häufigkeit
Häufigkeit 10%
kumulierte relative Häufigkeit
0
2
1
12
14
60%
70%
2
5
19
25%
95%
3
1
20
5%
100%
20
Fragen:
2
relative
10%
100%
Wie viele Studenten (absolut und in Prozent) haben höchstens zwei Geschwister? Wie viele Studenten (absolut und in Prozent) haben mehr als zwei Geschwister? Wie viele Studenten (absolut und in Prozent) haben mehr als zwei aber höchstens drei Geschwister?
Prof. Dr. Thomas Schreck
Statistik
14
3. Analyse univariater Daten
1.3.1 Darstellung (diskreter) quantitativer Merkmale
∈
. Dies ist der Anteil der die kleiner oder gleich sind. Jeder reellen Zahl wird also ein Wert nennen die zugehörige Funktion die empirische Verteilungsfunktion Sie ist
Bei einem quantitativen Merkmal können wir die kumulierten relativen Häufigkeiten für alle reellen Zahlen bestimmen. Für jedes Beobachtungen, zugeordnet. Wir definiert durch:
bezeichnen wir diese mit
der Merkmalsträger, deren Merkmalsausprägung größer als der
Mit der empirischen Verteilungsfunktion kann man relative Häufigkeiten für Intervalle bestimmen.
So erhält man den Anteil Wert
ist, durch:
Den Anteil
bestimmt man durch
Prof. Dr. Thomas Schreck
1
der Merkmalsträger, deren Merkmalsausprägung im Intervall
Statistik
,
liegt,
15
3. Analyse univariater Daten
des Merkmals Anzahl Geschwister:
1.3.1 Darstellung (diskreter) quantitativer Merkmale Empirische Verteilungsfunktion
0,10 0,70 0,95 1,00
Prof. Dr. Thomas Schreck
für für für für
0 01 12 23
Statistik
16
3. Analyse univariater Daten
Klassi Klassierte erte Daten)
1.3.2 Darstellung (stetiger) quantitativer Merkmale (
Stetige Merkmale haben unendlich viele Merkmalsausprägungen. Deshalb macht es wenig Sinn, die Häufigkeit für einzelne Merkmalsausprägungen zu rechnen. Aus diesem Grunde bildet man sogenannte Klassen und betrachtet die Häufigkeit für diese Klassen.
∗
∗ .
Man fasst also mehrere Werte zusammen. Wir bezeichnen die Untergrenze der i-ten Klasse
mit
∗ , ∗ ,
Obergrenze
zur
und
die
Klasse,
Obergrenze
die
mit
1
Untergrenze
während die i-te Klasse für
Bis
auf
hingegen
von der Form
einer links offenen und rechts abgeschlossenen Klasse. Klassen 1
⋮
2
k
Prof. Dr. Thomas Schreck
∗ , ∗
Inter Intervall vall
die
absolute Häufigkeit
∗ , ∗
⋮
⋮
∗ , ∗
Statistik
erste
∗, ∗
nicht.
Die
Klasse
erste
gehört
Klasse
ist
die also
ist. Man spricht von
relative Häufig Häufigkeit keit
⋮
17
Frage: Wie viele Studenten haben (absolut und in Prozent)
3. Analyse univariater Daten
mehr als 500 EUR oder 750 EUR zur freien Verfügung?
Klassi Klassierte erte Daten)
1.3.2 Darstellung (stetiger) quantitativer Merkmale (
Beispiel: Wie betrachten das Merkmal zur Verfügung stehendes Einkommen nach Abzug der notwendigsten Lebenshaltungskosten für Miete, Nahrung, PKW etc.
∗ 0, ∗ 100, ∗ 250, ∗ 500, ∗ 1000.
und bilden die vier Klassen [0;100], (100;250], (250;500] und (500;1000]. Es gilt
Allgemein: Untergrenze der i-ten Klasse mit
Klasse
Einkommen nach Abzug der Lebenshaltungskosten
Absolute Häufigkeit
in EUR 1
0
≤ x ≤ 100
∗
und die Obergrenze mit Kumulierte absolute
Häufigkeit
17
17
∗
relative Häufigkeit
kumulierte relative Häufigkeit
20,7%
20,7%
2
100 < x
≤ 250
31
48
37,8%
58,5%
3
250 < x
≤ 500
25
73
30,5%
89,0%
≤ 1000
9
82
11,0%
100,0%
4
500 < x
Prof. Dr. Thomas Schreck
82
100,0%
Statistik
18
3. Analyse univariater Daten
Klassi Klassierte erte Daten)
1.3.2 Darstellung (stetiger) quantitativer Merkmale (
Beispiel: Empirische Dichtefunktion – Einkommen nach Abzug der Lebenshaltungskosten
Falsche Darstellung
Korrekte Darstellung
Die Fläche einer jeden Klasse entspricht der relativen Häufigkeit fi
Prof. Dr. Thomas Schreck
Statistik
19
3. Analyse univariater Daten
Klassi Klassierte erte Daten)
1.3.2 Darstellung (stetiger) quantitativer Merkmale (
Falls sich die Klassenbreiten unterscheiden, muss dies bei der grafischen Darstellung (Histogramm) berücksichtigt werden
Berechnung der
empirischen Dichte
X-Achse: Merkmalsausprägungen mit Klassenaufteilung. Klassenbreite ist
⇒ Höhe des Rechtecks berechnet
∆ .
Y-Achse: Fläche des Rechtecks über einer Klasse entspricht der relativen Häufigkeit dieser Klasse
sich aus
∆
∆ 0
für
∗ ∗
Die zugehörige Funktion heißt empirische Dichtefunktion:
Prof. Dr. Thomas Schreck
für
sonst
∗ ∗
Statistik
∆
20
3. Analyse univariater Daten
Klassi Klassierte erte Daten)
1.3.2 Darstellung (stetiger) quantitativer Merkmale (
Beispiel: Wie
viel
Geld
stehen
Ihnen
persönlich
monatlich
nach
Abzug
der
notwendigsten
Lebenshaltungskosten für Miete, Nahrung, PKW etc. zum freien Ausgeben zur Verfügung?
Einkommen zur
relative
Klassenbreite
Empirische
freien Verfügung
Häufigkeit
in 100 EUR
Dichte
in EUR
0
≤ x ≤ 100
∆x
Klasse entspricht der relativen Häufigkeit fi
20,7%
1,0
20,7%
100 < x
≤ 250
37,8%
1,5
25,2%
250 < x
≤ 500
30,5%
2,5
12,2%
≤ 1000
11,0%
5,0
2,2%
500 < x
Prof. Dr. Thomas Schreck
100,0%
Die Fläche einer jeden
∆
für
∗ ∗ Statistik
21
3. Analyse univariater Daten
Klassi Klassierte er...