Statistik Einheit 1 PDF

Title Statistik Einheit 1
Author Michelle Lange
Course Grundlagen der Statistik
Institution FernUniversität in Hagen
Pages 32
File Size 2 MB
File Type PDF
Total Downloads 40
Total Views 122

Summary

Zusammenfassund der ersten Einheit...


Description

1

Statistische Einheit

Die statistische Einheit (Element, Untersuchungseinheit, Merkmalsträger) ist der Träger der Informationen, die in einer statistischen Untersuchung von Interesse sind

2

Merkmale

Als Merkmal wird eine Eigenschaft einer statistischen Einheit bezeichnet, die in der statistischen Analyse betrachtet wird Beispiel: a) Statistische Einheit: Angestellter b) Statistische Einheit: Autofabrik Merkmale: Betriebsgröße, Anzahl der Angestellten, produzierte Stückzahlen

2. 1 M E R K M A LSAUS PR Ä G U NG Die Werte oder Kategorien, die ein Merkmal annehmen kann, werden als Merkmalsausprägungen bezeichnet Beispiel:

2. 2 M E R K M A LSW E R T Eine an einer bestimmten statistischen Einheit Merkmalswert oder Beobachtungswert genannt

festgestellte

2. 3

SK ALI E R U NG DE R M E R KM A LSAUS PR Ä G U NG

2.3.1

Nomenskala

 

Merkmalsausprägung

Eine Nominalskala unterscheidet Merkmale nur nach Gleichheit oder Verschiedenheit Es existiert keine Rangordnung

Beispiele für nominale/qualitative Merkmale: Geschlecht, Nationalität, Studienfach, Aktienart

2.3.2 Ordinalskala  Eine Ordinal- oder Rangskala liegt vor, wenn die Merkmalswerte neben der qualitativen Unterschiedlichkeit  Eine natürliche Rangordnung besitzen Beispiele für ordinal messbare Merkmale:

wird

Klausurnoten , Härtegrade von Bleistiften, Tarifklassen, Tabellenplätze der Bundesliga

2.3.3 metrische Skala Besitzt ein Merkmal die Eigenschaften eines ordinalen Merkmals und ist zusätzlich noch die Interpretation der Abstände zweier verschiedener Merkmalsausprägungen möglich, so kann das Merkmal auf einer metrischen Skala (Kardinalskala) gemessen werden

2.3.3.1 Intervallskala  Abstände zwischen Ausprägungen vergleichbar  Kein natürlicher sondern relativer Nullpunkt z.B. Temperatur Fahrenheit oder Celsius; Beispiel: Gregorianischer Kalender

2.3.3.2 Verhältnisskala  Zusätzlich zur Intervallskala können auch Verhältnisse verglichen werden  Es liegt ein natürlicher Nullpunkt vor, z.B. Temperatur in Kelvin, Größe, Gewicht, Lebensdauer

2.3.3.3 Absolutskala Es liegt eine Verhältnisskala vor, die nicht von den Einheiten abhängt, d.h. es existiert eine natürliche Einheit, z.B. Stückzahlen, Anzahl von Personen

2.3.4 Diskrete Merkmale Ein Merkmal heißt diskret, wenn es nur endlich viele oder höchstens abzählbar unendlich viele Ausprägungen besitzt (nominal skalierte Merkmale; Merkmale, deren Wert durch Zählen bestimmt wird). Nominal- und ordinalskalierte Merkmale sind stets diskret Beispiele Diskrete Merkmale: Einwohnerzahl, Steuerklasse, Lottozahlen, Geschlecht

2.3.5 Stetige Merkmale Dagegen heißt ein metrisches Merkmal stetig (kontinuierlich), wenn es überabzählbar viele Ausprägungen hat, d.h. wenigstens in einem bestimmten Bereich können unendlich viele Werte angenommen werden Beispiele für stetige Merkmale: Lebensdauer, Größe, Gewicht, Temperatur

2. 4

KLA SS IE R UN G VO N M E R KM A LS AU SP R ÄG UNG E N

2.4.1

Untere und obere Klassengrenze

2.4.2

Klassenbreite

2.4.3

Klassenmitte

3

H ä u fi g k e i t s v e r t e i l u n g e n

3. 1

ABS O LUT E HÄU F IG KE IT

hj

Die absolute Häufigkeit

der Merkmalsausprägung

xj

mit

hj

= h(

xj

) ist die Anzahl

der Beobachtungswerte, die diese Ausprägung aufweisen

3. 2

R E LAT IV E HÄUF IG KE IT

Beispiel für absolute und relative Häufigkeit: Von 60 befragten Personen fahren 15 mit dem öffentlichen Nahverkehr zur Arbeit

xj

Merkmalsausprägung absolute Häufigkeit: relative Häufigkeit:

hj fj

: Person nutzt öffentlichen Nahverkehr = 15 = 15/60 = 0.25 oder 25%

3. 3 H ÄU F IG KE IT S VE R T E ILUNG Die Häufigkeitsverteilung eines Merkmals ist eine Zuordnung, die zu jeder vorhandenen Merkmalsausprägung oder Merkmalsklasse angibt, wie häufig diese vorkommt (absolute oder relative Häufigkeitsverteilung)

3. 4 STAB - U ND BA LKE NDI AG R AM M Ein Stab- bzw. Säulendiagramm veranschaulicht bei Vorliegen einer horizontalen Achse eine höhenproportionale Darstellung der Häufigkeiten mittels Stäben bzw. Säulen. Balkendiagramme besitzen eine vertikale Achse mit waagerecht aufgetragenen Balken (längenproportionale Darstellung).

3. 5 K R E ISD IAG R AM M Ein Kreisdiagramm ist eine grafische Darstellung von Häufigkeiten durch sektorale Aufteilung der Kreisfläche. Die Flächen der Sektoren bzw. die zugehörigen Winkel stehen dabei im gleichen Verhältnis zueinander wie die entsprechenden Häufigkeiten. Die Gesamthäufigkeit kann in einem Kreisdiagramm durch die gesamte Fläche des Kreises veranschaulicht werden.

3. 6 H IS T O G R AM M Ein Histogramm ist eine grafische Darstellung der Häufigkeiten eines klassierten, quantitativen Merkmals durch rechteckige Flächen über den Klassen in einem Koordinatensystem. Es ist zu beachten, dass die einzelnen Rechtecke des Histogramms unmittelbar aneinander schließen und nicht wie beim Säulendiagramm getrennt sind Bei einem Histogramm handelt es sich um eine flächenproportionale Darstellung der Häufigkeiten. Dies ist besonders dann zu beachten, wenn die Klassen nicht gleich breit sind. Nur bei einem Histogramm mit gleichbreiten Klassen ist die Rechteckhöhe proportional zu den beobachteten Häufigkeiten. Liegen gleichbreite Klassen mit einer Breite von 1 vor, so entspricht die Rechteckhöhe den beobachteten Häufigkeiten

3. 7 S UM M E N HÄUF IG KE IT Ist es von Interesse festzustellen, wie viele Merkmalswerte insgesamt unterhalb oder oberhalb einer bestimmten Merkmalsausprägung liegen, wird auf die Summenhäufigkeitsverteilung zurückgegriffen. Interessierende Fragestellung: Wie viele Einwohner der Bundesrepublik haben ein monatliches Einkommen von z.B. höchstens 3000€? In solch einem Fall werden die kumulierten absoluten oder relativen Häufigkeiten bestimmt. Dabei werden für jede Merkmalsausprägung alle Häufigkeiten der Merkmalsausprägungen addiert, die diese Ausprägung oder einen kleineren Wert annehmen Die Summenhäufigkeit einer Merkmalsausprägung oder einer oberen Klassengrenze eines wenigstens ordinal messbaren Merkmals ist die zugeordnete Häufigkeit aller Beobachtungswerte, die diese Merkmalsausprägung bzw. diese Klassengrenze nicht überschreiten

Voraussetzung: Bei der Berechnung der Summenhäufigkeit müssen die Beobachtungswerte aufsteigend geordnet vorliegen

3.7.1 Summenhäufigkeitsverteilung Als Summenhäufigkeitsverteilung wird die tabellarische oder auch grafische Darstellung der geordneten Merkmalsausprägungen bzw. Merkmalsklassen und der zugehörigen Summenhäufigkeiten bezeichnet Liegen diskrete metrische Merkmale oder ordinale Merkmale vor, ergibt die grafische Darstellung der Summenhäufigkeitsverteilung eine Treppenfunktion

3. 8 R E S T HÄUG IKE IT E N Interessierende Fragestellung: Wie viel Prozent der Erwerbstätigen haben ein monatliches Nettoeinkommen von mehr als 1000 Euro? Interessierende Fragestellung: Wie viel Prozent der untersuchten Kraftfahrzeuge überschreiten eine bestimmte Geschwindigkeit? In diesem Fall werden die sogenannten Resthäufigkeiten HR(x) bzw. FR(x) berechnet, welche aus den Summenhäufigkeiten hergeleitet werden können. Wie bei der Berechnung der Summenhäufigkeiten müssen auch hier die Beobachtungswerte aufsteigend geordnet vorliegen

4

L a g e m a ß e e i n d i m e n s i o n a l e r Ve r t e i l u n g

4. 1 M O DA LW E R T /M O DU S Der Modalwert xmod einer Häufigkeitsverteilung ist jene Merkmalsausprägung, die am Häufigsten vorkommt. Es gilt somit h(xmod) = max h(xj) (Maximum über alle xj). Wichtig: Bei nominal skalierten Merkmalen kann nur der Modalwert als sinnvolles Lagemaß eingesetzt werden Modalklasse bei klassierten Werten:  Oft Klassenmitte als Modalwert  Dichtest besetzte Klasse

4. 2 M E DI AN Voraussetzung: Merkmalsausprägungen können wenigstens nach einer Ordinalskala geordnet werden

Beispiel n gerade: Von 10 Aktien wurde die Tagessteigerung ermittelt: 3.80 3.87 3.93 4.02 4.07 4.13 4.16 4.20 4.21 4.29

Die beiden mittleren Reihenwerte sind 4.07 und 4.13. Es gilt also:

x med

=

4,07 + 4,13 =4.1 2

4. 3 E INFA LLS KL ASS E 200 Studenten wurden nach ihrer Körpergröße befragt: Der Median entspricht dem Wert

x med =

1 2

( x(100)

+ x(101) )

und fällt somit in die

Klasse (160; 170] (Einfallsklasse)

4. 4 M I T T LE R E AB SO LUT E A BW E ICH UNG Eigenschaft des Medians bei quantitativen Merkmalen

Eigenschaft Median: Robustheit gegenüber Ausreißern, d.h. der Median reagiert nicht auf Veränderungen der Werte, die am Rande der Verteilung liegen.

4. 5 n n

× ×

4. 6

UN T E R E /O BE R E Q UAR T IL 0.25 = das untere Quantil entspricht diesem Wert der Reihe 0.75 = das obere Quantil entspricht diesem Wert der Reihe

BO X P LO T

In einem einfachen Box-Plot werden die Quartile

x 0,25

und

x 0,75

durch eine Box dargestellt, in

deren Inneren der Median als Punkt oder als Linie dargestellt ist. Die Extremwerte

x max

x min

und

werden mit der Box durch Striche („whisker“) verbunden

Durch die Lage des Medians innerhalb der Box kann ein Eindruck von der Schiefe der zugrundeliegenden Verteilung vermittelt werden

4. 7 AR IT H M E T IS CHE S M IT T E L Häufig auch bezeichnet als Durchschnitt Berechnung

bei

einzelnen

Gegeben sind die n Beobachtungswert

xi

Beobachtungswerten:

(i = 1,2,...,n), dann ergibt sich das arithmetische Mittel

xT zu

xT =

x 1+ x 2+…+xn n

=

1 n

n

xi ∑ i=1

Das so berechnete arithmetische Mittel wird auch als ungewogenes arithmetisches Mittel bezeichnet.

4.7.1

Berechnung bei diskreten oder klassierten Häufigkeitsverteilungen:

Für jede vorkommende Merkmalsausprägung bzw. Klasse relativen Häufigkeiten

bzw.

hj

fj

xj

(j = 1,...,m) sind die absoluten bzw.

gegeben, wobei die Gesamtzahl der Beobachtungen n

entspricht. In diesem Fall berechnet sich das arithmetische Mittel xT zu:

xT =

1 n

m

xjhj ∑ j=1

m

=

xj f j ∑ j=1

Dieser Wert, bei dem die Merkmalsausprägungen mit den beobachteten Häufigkeiten gewichtet werden, wird als gewogenes arithmetisches Mittel bezeichnet Beispiele: Während eines halben Jahres (120 Arbeitstage) wird täglich im Rahmen einer Untersuchung über den Publikumsverkehr beim Sozialamt einer Großstadt die Anzahl der persönlich vorsprechenden Antragsteller festgehalten. Anzahl Antragsteller Anzahl der Tage

xT =

xT =

der

0

1

2

3

4

5

6

7

8

9

5

4

1 0

1 2

2 0

1 8

1 8

1 2

1 5

2

1 0 4

(0 ·5+ 1· 4 +2· 10+3 · 12+ 4 · 20+5 ·18 + 6 ·18+ 7 · 12 + 8 ·15 + 9· 2+10 · 4) 120 (4 +20+ 36+ 80 + 90 + 108+84 + 120 + 18+ 40) 120

=

600 120

=5

4.7.2 Probleme beim arithmetischen Mittel: Generell lässt sich sagen, dass die Verwendung des arithmetischen Mittels immer dann Probleme aufwirft, wenn die Verteilung nach einer Seite sehr weit ausläuft, bzw. Ausreißer vorliegen. Bei allen ausgeprägt schiefen Verteilungen wird also die Verwendung des arithmetischen Mittels problematisch. Entsprechendes gilt bei mehrgipfligen Verteilungen. Das arithmetische Mittel ist für die Beschreibung der „durchschnittlichen Lage“ einer Verteilung umso weniger geeignet, je stärker eine Verteilung von den Eigenschaften Eingipfligkeit und Symmetrie abweicht

4. 8 G E O M E T R ISC HE S M IT T E L Benutzt: bei durchschnittlicher prozentualer Veränderung Beispiel mit Erklärung: Nachstehende Tabelle gibt die Kapitalentwicklung eines Anfangskapitals von 1000€ bei steigendem Zins an. Von Interesse ist die durchschnittliche Verzinsung. Jahr

1 2 3

Zinssat z

3% 3% 5%

Kapital 10000.00 Anfangskapital 1030.00 1060.90 1113.95

4 5

7% 7%

1191.92 1275.36 Endkapital

1. Jahr: (1 + 0.03)· K0 = K1 2. Jahr: (1 + 0.03)· K1 = (1 + 0.03) · K0 = K2 3. Jahr: (1 + 0.05)· K2 = (1 + 0.05)·

2

(1+0.03)

· K0 = K3

(1+0.03)2 · K0 = K4 ·(1 + 0.05)· (1+0.03)2 · K0 = K5

4. Jahr: (1 + 0.07)· K3 = (1 + 0.07)·(1 + 0.05)· 5. Jahr: (1 + 0.07)· K4 =

(1+0.07)2

Das Endkapital lässt sich als Produkt aus dem Anfangskapital K0 und den Zinsfaktoren 1 + darstellen, wobei

zt

den Zinssatz des Jahres t bezeichnet, t = 1,...,5. Der durchschnittliche

Zinsfaktor 1 + z berechnet sich dann als 5. Wurzel aus dem Produkt der Zinsfaktoren. 1+z= K5 =

√ 1,032∗1,05∗1,072 5

5

(1+ z)

= 1.0498476

· K0 = 1.27536 · K0 = 1275.36

Nicht einfach Prozente addieren!

4.8.1

zt

Allgemeine Formeln für das gewogene und ungewogene geometrische Mittel

4. 9

ZUS AM M E NFASSUNG ZU D E N M I T T E LW E RT E N

5

S t r e u u n g s m a ß e e i n d i m e n s i o n a l e r Ve r t e i l u n g e n

5. 1 S T E U E R UNG Inwieweit streuen die Stichprobenwerte um den Mittelwert

5. 2 S PAN NW E IT E Die Spannweite w ist als Differenz der beiden Extremwerte, dem kleinsten und dem größten vorkommenden Beobachtugswert, definiert: w=

max i

xi

-

mini

xi

maxi x i : größter xi-Wert für alle i (Maximum über alle mini xi : kleinster xi-Wert für alle i (Minimum über alle Eigenschaft: Nicht robust gegen Ausreißer Andere Möglichkeit:Quartilsabstand

x 0.75 − x 0,25

xi ) xi ¿

5. 3

VAR I ANZ ( M IT T LE R E Q UADR AT IS CHE A BW E I CH UNG ) U ND STAND AR DABW E I CHU NG Diese Maße berücksichtigen die quadratischen Abweichungen aller Beobachtungswerte vom arithmetischen Mittel, so dass größere Abstände zum Mittelwert stärker berücksichtigt werden

5.3.1

Standardabweichun g

Beispiel: Für die Werte 3, 7, 8, 9, 13 mit xT = 8 ergibt sich für die Varianz 2

ŝ

2

=

2

=

(−5 )2 +(− 1 )2+0 2 +12 +52 5

=

25 +1+ 1+ 25 5

=

52 5

= 10,4

und für die Standardabweichung ŝ=

√ŝ2

2

2

(3−8)2+(7 −8 ) +( 8− 8) +(9− 8) +(13−8 ) 5

=

√ 10,4

= 3.22

Beispiel für die empirische Varianz bei einer Häufigkeitsverteilung:

5.3.2 Variationskoeffizient In welcher Relation stehen die Varianz und das arithmetische Mittel zueinander? Ein dimensionsloses Streuungsmaß, welches Streuung und arithmetische Mittel ins Verhältnis setzt, und somit für Vergleichszwecke besonders gut geeignet ist Der Variationskoeffizient v ist eine relative Größe, welche das Verhältnis von Standardabweichung und arithmetischem Mittel darstellt.

v=

ŝ x 

In einigen Fällen wird auch die mittlere absolute Abweichung zum Median in Beziehung gesetzt

v=

6

d x 

Standardisierung von Daten

Liegen Beobachtungen vor, die unterschiedliche Maßeinheiten besitzen bzw. die aus verschiedenen Stichproben mit unterschiedlichem Erwartungswert und/oder Varianz stammen, so kann eine Vergleichbarkeit der Daten mittels der Standardisierung erzielt werden.

Gegeben sei eine Stichprobe mit dem arithmetischen Mittel

x und der Varianz

ŝ

2

, dann wird bei

der Standardisierung von Daten, auch z-Transformation genannt, die Beobachtung

xi

in den

Wert

zi

=

x i− x ŝ

transformiert. Nach der Standardisierung liegen Daten mit dem Mittelwert 0 und der Varianz 1 vor. Beispiel für die Standardisierung: Ein Student möchte seine Ergebnisse der Statistikklausur (S) und Mathematikklausur (M), unter Berücksichtigung des Gesamtergebnisses, miteinander vergleichen. In der Statistikklausur erzielte er von 150 möglichen Punkten 82, während er in der Mathematikklausur 45 von 100 Punkten erreichte. Die Mittelwerte und Standardabweichungen wurden mit

ŝS

= 30,

ŝM

x  S

= 76,

x  M

= 40,

= 20 angegeben.

zS

=

82−76 30

= 0.2

zM

=

45− 40 20

= 0.25

Der Student hat somit in der Mathematikklausur besser abgeschnitten

7

S c h i e f e u n d Wö l b u n g e i n e r Ve r t e i l u n g

Arithmetisches Mittel, Median und Modalwert stimmen bei einer eingipfligen, symmetrischen Verteilung überein

Bei einer mehrgipfligen, symmetrischen Verteilung stimmen das arithmetische Mittel und der Median überein. Aufgrund der Mehrgipfligkeit können jedoch mehrere Modalwerte auftreten

7. 1

DA R ST E LLUNG D E R SC HIE F E BZ W. ST E I LE E I NE R VE RT E ILUNG

7. 2

F E CHN E R S CH E L AG E R E G E L

x mod ¿ ´x =x med

für symmetrische Verteilungen

x mod < x med...


Similar Free PDFs