Statistik Zusammenfassung PDF

Title Statistik Zusammenfassung
Course Statistik
Institution Technische Hochschule Köln
Pages 49
File Size 822.3 KB
File Type PDF
Total Downloads 172
Total Views 507

Summary

Statistik Zusammenfassung Merkmale und ihre statistische Einheiten (Personen, Fahrzeuge, Unternehmen...) Merkmale: Alter, Farbe, Umsatz...) o qualitativ: rot, Monarchie o quantitativ: 43 Jahre, 23,4 Mio. Skalen von Merkmalen Nominalskala o lassen sich nicht ordnen o Beispiele: Farbe, Beruf, Wirtscha...


Description

Statistik Zusammenfassung Merkmale und ihre Träger   

Merkmalsträger = statistische Einheiten (Personen, Fahrzeuge, Unternehmen...) Merkmale: Alter, Farbe, Umsatz...) Merkmalsausprägungen: o qualitativ: rot, Monarchie o quantitativ: 43 Jahre, 23,4 Mio. €

Skalen von Merkmalen 





Nominalskala o Ausprägungen lassen sich nicht ordnen o Beispiele: Farbe, Beruf, Wirtschaftsbranche, Geschlecht... Ordinal- oder Rangskala o Ausprägungen sind natürlich geordnet, die Abstände aber nicht Messbar o Beispiele: Offiziersränge (Leutnant, General) Häufigkeiten (nie, selten, manchmal, häufig, immer) Metrische Skala o Ausprägungen sind natürlich geordnet und der Abstand kann gemessen werden o Unterschiede können verglichen werden o Beispiele: Stückzahlen, Geldbeträge, physikalische Größen o Metrische Merkmale werden weiter eingeteilt in:  diskrete Merkmale  es können nur bestimmte, separate Werte angenommen werden  Stückzahlen oder Geldbeträge  stetige (kontinuierliche) Merkmale  es können auch beliebige Zwischenwerte angenommen werden  Größe oder Gewicht  Unter praktischen Gesichtspunkten werden auch stetige Merkmale diskret erfasst (Größe =1,81m)

Eindimensionales Datenmaterial Merkmale und Ausprägungen   

Es gibt ein Merkmal o Nominal, ordinal oder metrisch skaliert Dieses Merkmal kommt in k Ausprägungen vor Beispiel: Nationalität der Studierenden des Fachs Versicherungswesen o 935 Studenten => n = 935 Merkmalswerte o Diese weisen insgesamt k = 15 verschiedene Ausprägungen auf (Deutschland, Russland, Türkei...) o Das Merkmal Deutschland kommt 700 mal vor.

Absolute und relative Häufigkeiten 1. absolute Häufigkeit (hi) a. gibt an wie oft bei den Merkmalswerten n die Ausprägung a i aufgetreten ist b. Die Ausprägung Deutschland ist 700 mal aufgetreten => h i = 700 2. relative Häufigkeit (fi) a. gibt an welchen Anteil an den Beobachtung die absolute Häufigkeiten ausmachen hi b. n c. wird oft in Prozent angegeben 700 ≈ 0,74 ≈ 74% d. fi (Deutschland) = 935

Klassierung 



Bei einer großen Anzahl von Merkmalsausprägungen, empfiehlt es sich dieses in Klassen zusammenzufassen o Ist bei allen Arten von Skalen möglich  z.B. Schulnoten in bestanden und nicht bestanden Bei ordinalskalierten und metrisch skalierten Merkmalen bietet sich eine Einteilung in Intervalle an. o [aiu, aio[  [x => Merkmal x ist eingeschlossen  ]x => Alles bis ausschließlich Merkmal x ist eingeschlossen  Für Merkmal a => aiu ≤ a < aio  u = unten, o = oben  Von ... bis ausschließlich...

o Die Klassenbreite ∆ai sollte gleich gewählt werden (Delta)  außer in sehr dünn besetzten Randbereichen o Jede Klasse wird durch einen typischen Wert repräsentiert  z.B. den Klassenmittelpunkt  Hat man bessere Informationen über die Ausprägungen innerhalb der Klassen kann man auch geeignetere Repräsentanten wählen  Jede Klasse hat absolute und relative Klassenhäufigkeiten h i und fi  absolute Klassenhäufigkeit => Wie viele der Ausprägungen treten in der Klasse auf?  relative Klassenhäufigkeit => Anteil der absoluten Klassenhäufigkeit an der Gesamtzahl der Ausprägungen

Häufigkeitsdichten klassierter Daten 

Um unterschiedlich "breite" Klassen vergleichen zu können empfiehlt es sich, die absoluten und relativen Häufigkeitsdichten zu betrachten hi o hi* = (absolute Häufigkeit der Klasse i geteilt durch die ∆ai Klassenbreite) fi (relative Häufigkeit der Klasse i geteilt durch die ∆ai Klassenbreite)

o fi* =

Häufigkeitssummen 

Wie viele Merkmalswerte sind kleiner oder gleich a i? o Um diese Frage zu beantworten bildet man Häufigkeitssummen H i  auch kumulierte Häufigkeiten genannt  Man addiert die absoluten Häufigkeiten  Bei den relativen Häufigkeitssummen Fi addiert man die relativen Häufigkeiten  Beispiel anhand Häufigkeitssummen von klassierten Daten:  Klasse 1: hi = 3/ Hi = 3/ fi = 0.12/ Fi = 0,12  Klasse 2: hi = 3/ Hi = 6/ fi = 0.12/ Fi = 0,24  Klasse 3: hi = 6/ Hi = 12/ fi = 0.24/ Fi = 0,48  ...

Lage- und Streuungsmaße Lagemaße    

Ziel: Beschreibung wo liegt der Schwerpunkt der Verteilung? bei Nominalskalierten Daten: Modalwert bei ordinalskalierten Daten: Modalwert oder Median bei metrisch skalierten Daten: Modalwert, Median oder Mittelwert

Mittelwert       

Voraussetzung: es handelt sich um ein metrisch skaliertes Merkmal o = reelle Zahlen auch genannt: "arithmetisches Mittel" oder "Durchschnitt" Berechnung aus den Merkmalswerten: x 1+ x 2+ x 3 …+ ¿ x = n ¿ Berechnung mit Hilfe der absoluten und relativen Häufigkeiten h1∗a 1+h 2∗a2+h3∗a 3 … oder für relative Häufigkeiten mit fi statt hi x = n o Merke: h = Häufigkeit des Merkmals a = Ausprägung des Merkmals Bei klassierten Daten wird in den Formeln der Repräsentant a i* anstelle von ai verwendet

Mediane  





Voraussetzung: Merkmal ist ordinal oder metrisch skaliert o => Merkmale können geordnet werden Eine Ausprägung heißt Median (xMed), wenn mindestens die Hälfte der Merkmalswerte kleiner als die Ausprägung und ebenfalls mindestens die Hälfte größer als die Ausprägung ist. Erstmal muss man die Merkmalswerte der Größe nach ordnen, hat man dies getan, ist für eine ungerade Anzahl n der Merkmalswerte der in der Mitte stehende Wert der einzige Median o Beispiel n = 25 => (25+1) / 2 = 13 => Median = 13 Ist n gerade, so haben die beiden Nachbarn des Wertes die Medianeigenschaft inne o bei metrisch skalierten Werten sogar alle Zwischenwerte

Quantile

  

Nur bei metrisch skalierten Daten Vorerst die Werte ordnen Für 25% Quantil = 0.25 * n o Ist das Ergebnis eine ungerade Zahl ist das Quantil die nächst höhere ganze Zahl  25%, 50% und 75% Quantile heißen Quartile  50% Quantil heißt Median  1%, 2%... 99% Quantil heißen Percentile

Modalwert/ Modus 

 



Gibt die Ausprägung an, die am häufigsten vorkommt o auch bei Nominalskalen möglich  (Welchen Bürgermeister würden sie wählen?) absolute und relative Häufigkeiten führen zum Modalwert Bei klassierten Daten: o Man gibt die Klassenbezeichnung an  Die 30-40 Jährigen also nicht die 35 Jährigen als Repräsentanten Sinnvollerweise gibt man als Modalwert die Klasse mit der größten Häufigkeitsdichte an o Weil Klassen oftmals unterschiedlich breit sind

Verschiebungen und Umskalierungen  





Nur bei metrisch skalierten Daten möglich Verschiebung: o Alle Merkmalswerte werden um denselben Wert erhöht oder gesenkt  Jeder Mitarbeiter erhält 100€ mehr Gehalt Umskalierung o Alle Merkmalswerte werden mit demselben Faktor multipliziert  Jeder Mitarbeiter erhält 5% mehr Gehalt Wirkt sich ebenfalls auf Modalwert, Quantile, Mittelwert aus o Diese steigen ebenfalls um 100€ oder 5%

Robustheit von Lagemaßen 

Der Median ist robust gegen Ausreißer o ein völlig daneben liegender Wert verschiebt den Median allerhöchstens geringfügig



o Ersetzt man im Beispiel "Alter" den 40 Jährigen durch einen 400 Jährigen, hätte das keinen Einfluss auf den Median o Ersetzt man ihn durch einen 4 Jährigen sinkt der Median lediglich von 38 auf 37 Der Mittelwert ist empfindlich gegen Ausreißer

Ist der Mittelwert größer als der Median nennt sich die Verteilung linkssteil bzw. rechtsschief Quantile klassierter metrischer Daten 



Anstatt bei klassierten Daten lediglich den Bereich/ die Klasse anzugeben in dem der Median bzw. das Quantil liegt kann man auch genauer vorgehen o Voraussetzung ist, dass man unterstellt, die Verträge sind in den Klassen gleichmäßig verteilt Der Median ist der 977. Vertrag und liegt in der Klasse 1000-2000 o 822 Verträge liegen in der Klasse 0-1000 o 345 Verträge liegen in der Klasse 1000-2000 o Man sucht also den 155. der 345 Verträge 977− 822 × (2000-1000) ≈ 1449 345 o Der Median ist also ungefähr bei 1449 o 1000+



Es geht jedoch noch genauer: 0.5 × 1953−822 × (2000-1000) ≈ 1448 345 Man nimmt jetzt nicht den gerundeten Median sondern setzt direkt 0.5*n ein => auch Kommazahlen in der Formel Also allgemein: o (Untergrenze der gesuchten Klasse) + o 1000 +

 

Gesuchtes Quartil ( 0,25 oder 0,01 …)−absolute Häufigkeitssumeder vorherigen Klassen absolute Häufigkeit∈der g esuchten Klasse × (Klassenbreite der gesuchten Klasse => Ober - Untergrenze)

Streuungsmaße

 

Merkmalswerte können unterschiedlich stark um den Median, Modalwert oder Mittelwert gestreut sein Streuungsmaße quantifizieren die Streuung der Werte o Sie sind immer ≥ 0 (Streuungsmaß = 0 alle Werte sind identisch) o Wir behandeln Streuungsmaße nur für metrisch skalierte Daten

Spannweite 



Gibt den Abstand zwischen dem kleinsten und größten beobachteten Merkmalswert an o Sehr ausreißeranfällig o Wenig aussagekräftig o z.B. Abstand zwischen 25% und 75% Quantil  0,75 × n - 0,25 × n Bei klassierten Daten betrachtet man den Abstand zwischen der Untergrenze der kleineren Klasse und der Obergrenze der größten Klasse o Problem ist, dass dadurch die tatsächliche Spannweite überschätzt wird

Mittlere Abweichung   

Beschreibt die durchschnittliche Abweichung der beobachteten Merkmale von einem bestimmten Wert/ Lagemaß (Median, Modalwert, Mittelwert) Ist minimal wenn man als Lagemaß x den Median wählt MA(x) =

n

1 n

∑ ∣xi−x ∣ i=1

o von 1. Wert bis n setzt man alle Werte für x i ein und zieht das gegebene Lagemaß ab. Die Ergebnisse addiert man alle und teilt die Summe durch n

Varianz   

Um die Mittlere Abweichung vom Mittelwert/ Durchschnitt stärker zu gewichten Gleiche Formel nur, dass man (xi-x) quadriert also: 2

s=

1 n

n

(xi−x )² ∑ i=1

o Bei klassierten Daten ersetzt man xi durch den Repräsentanten ai*  Varianz wird dadurch meist unterschätzt

Standardabweichung  

Positive Wurzel der Varianz Weil die Varianz andere Dimensionen als die beobachteten Daten hat o Daten in € Varianz in €2

Verschiebungen und Umskalierungen



Auch die hier betrachteten Streuungsmaße bleiben bei Verschiebungen der Merkmalswerte unverändert o Multipliziert man die Merkmalswerte oder Ausprägungen mit einem positiven Faktor c, so steigen auch Spannweite, Quartilsabstand, mittlere Abweichung und Standardabweichung um das c-Fache  Die Varianz hingegen steigt um das c2 fache

Variationskoeffizient 



  

Eine Streuung der Preise um 100€ bei einem Durchschnittspreis von 500€ ist zwar absolut genauso groß wie eine Streuung der Preise um 100€ bei einem Durchschnittspreis von 20.000€ aber relativ größer Daher relativiert man die Streuungsmaße oft indem man sie durch ein Lagemaß wie den Mittelwert teilt. Standardabweichung Mittelwert Der Variationskoeffizient ist eine dimensionslose Zahl Er ist wird also nicht von Verschiebungen und Umskalierungen beeinträchtigt. o Ist auch nach einer Erhöhung der Merkmalswerte oder Ausprägungen um c genauso groß wie vorher.

Variationskoeffizient =

Mehrdimensionales Datenmaterial Allgemeines 

Pro Merkmalsträger werden nun mehrere Merkmale untersucht o Wir beschränken uns auf zwei Merkmale o Beispiele:  Einkommen und gefahrener Fahrzeugtyp  Haarfarbe und Augenfarbe  Prämienwachstum und Schadenquote... o Gibt es einen Zusammenhang zwischen den beiden Merkmalen?

Beispiel:     

n=1000 Befragte Merkmal X = Beruf (k=5 Ausprägungen) o Arbeiter, Beamte, Landwirte, Sonstige Merkmal Y = Sportaktivität (Y = 3 Ausprägungen) o nie, gelegentlich, regelmäßig Es gibt also 5 × 3 = 15 verschiedene Wertepaare absolute Häufigkeit der Wertepaare: o Wie viele Arbeiter treiben nie Sport? o Wie viele Beamte treiben regelmäßig Sport?... o h11 = Erster X und erster Y-Wert Erstes Kästchen ganz oben links o h13 = Erster X und Dritter Y-Wert o h1. = Randwert der ersten Zeile (Summe aller Häufigkeiten in der Zeile) o h.1 = Randwert der ersten Spalte (Summe aller Häufigkeiten in der Spalte)

Bedingte Häufigkeiten 



Anteil der nie Sportler? o Alle Leute die nie Sport treiben zusammenzählen und durch die Gesamtzahl der befragten Teilen Anteil der nie Sportler unter den Landwirten? o Anzahl der nie Sport treibenden Landwirte / Anzahl der befragten Landwirte

Deskriptive Unabhängigkeit 

Zwei Merkmale sind deskriptiv unabhängig, wenn die bedingten Verteilung unabhängig vom festgesetzten Wert immer gleich der Randverteilung ist.

fij fij =fi . oder =f . j fi . f.j  Im Zähler ein Merkmal festgesetzt und das andere ist beliebig  Im Nenner die Randverteilung des festgesetzten Merkmals  Es muss als Ergebnis die Randverteilung des beliebigen Merkmals rauskommen, damit deskriptive Unabhängigkeit vorliegt o Aus der Formel abgeleitet folgt: fij = fi. × fj. Die Formel gilt für relative Häufigkeiten, bei absoluten muss man noch durch n teilen Abhängigkeit kann durch ein Gegenbeispiel bewiesen werden o

 

Zusammenhangsmaße 



Gesucht sind Maßzahlen dafür: o ob zwei Merkmale zusammenhängen oder unabhängig sind o Wie stark der Zusammenhang ist o In welche Richtung der Zusammenhang geht Ideal wären Maßzahlen im Intervall [0,1] oder [-1,1] o [0,1]  0 = Kein Zusammenhang  1 = Enger Zusammenhang o [-1,1]  -1 = enger, entgegen gerichteter Zusammenhang  0 = Kein Zusammenhang  1 = Enger gleichgerichteter Zusammenhang

X2 ("Chi-Quadrat")   

Man benutzt eine bestimmte Häufigkeit und die Abweichung dieser Häufigkeit von dem "theoretischen Wert bei Unabhängigkeit" also dem Produkt aus fi. × fj. da man die allgemeine Abweichungsquote haben will, führt man dies für jede Zelle durch hi.−h . j Wir rechnen mit absoluten Häufigkeiten, daher wird aus fi. × fj. => n 2



hi . ×h . j ) n hi . ×h . j n

(hij−

   

Dies ist für alle Zellen durchzuführen. Die einzelnen Ergebnisse addiert man dann. Das Ergebnis ist das Chi Quadrat Ist das Ergebnis = 0 so sind X und Y deskriptiv unabhängig Mit steigendem Ergebnis steigt die Abhängigkeit Chi Quadrat ist immer ≥ 0

Kontingenzkoeffizient   

Will man Chi-Quadrat so normieren, dass es im Intervall [0,1] liegt, zieht man den Kontingenzkoeffizienten heran Chi −Quadrat m × K= Chi Quadrat + n m−1 m = min (k,l) => Das kleinere aus k und l o Merke:  k ist die Ausprägung des Merkmals X  l ist die Ausprägung des Merkmals Y





Mittelwert und Standardabweichung bei mehrdimensionalem Datenmaterial 



Randverteilungen separat auswerten o Beispielsweise bei Größe + Gewicht  Randverteilung der Größe  Randverteilung des Gewichts  bei klassierten Daten die Klassenmitte/ den Repräsentanten nehmen  Absolute/ relative Häufigkeiten * die Repräsentanten/ die Werte Bei Varianz: Randhäufigkeiten betrachten

Randhäufigkeit 1 × (Wert bzw . Repräsentant 1−Mittelwert )2 +Randhäufigkeit 2 × ( Wert bzw . Repräsentant 2− Gesamtzahl der Randhäufigkeiten

o Für Standardabweichung Wurzel aus der obigen Formel

Kovarianz  

Nur bei mehrdimensionalem Datenmaterial Man hat zwei Merkmale X und Y o Gesucht ist der Zusammenhang zwischen X und Y  z.B. Größe und Gewicht

     

COV(X,Y) =

1 n

n

×

∑ ( xi−x ) ×( yi− y ) i=1 n

1 × ∑ ( xi−x ) ×(xi−x ) = Varianz von X n i=1 Folglich ist COV (Y,Y) die Varianz von Y Die gleiche Formel wie die Varianz nur, dass hier nicht quadriert wird Man schreibt es als z.B. COV(X,Y) = 79,86 cm × kg Kovarianz = 0 bedeutet nicht, dass die Merkmale keinen Zusammenhang haben, sondern nur, dass sie in keinem linearen Zusammenhang stehen o Werte lassen sich nicht durch Gerade darstellen o Wenn auf der X Achse Gewicht und Y Achse Größe wäre COV(X,X) =

Korrelationskoeffizient    

COV (X , Y ) (Kovarianz geteilt durch Produkt der beiden sx × sy Standardabweichungen rxy = 0 => Die Merkmale sind "unkorreliert" => Es besteht kein Zusammenhang rxy = +1 =>streng gleichgerichteter linearer Zusammenhang rxy = -1=> streng entgegengesetzter linearer Zusammenhang rxy =

Regression 

 



Um die Abhängigkeit der beiden Merkmale X und Y zu untersuchen o Nur bei metrisch Skalierten Daten o Bei der Korrelationsanalyse werden die Merkmale als gleichwertig angesehen o Bei der Regressionsanalyse wird ein Merkmal als abhängig vom anderen angesehen Man sucht einen funktionalen Zusammenhang y=f(x), der die Abhängigkeit der yi (Werte für Y) von den xi (Werten für X) möglichst gut beschreibt Beispiele: o Je größer X, desto kleiner Y o Je größer X, desto größer Y... Wieder werden alle Werte im Koordinatensystem eingezeichnet o Man sucht jetzt eine Gerade, die alle Punkte verbindet.  Es ist meistens nicht möglich eine solche Gerade zu finden.  Es entstehen kleine Abstände. o Diese Abstände werden im Folgenden Quadriert  Man nennt sie dann Fehlerquadrate o Wir suchen also eine Gerade, für die die Fehlerquadrate minimal sind.



Wir beschränken uns auf lineare Regression. Wir suchen also Regressionsgeraden (y(x) =ax + b



Fehlerquadratsumme:

n

( yi− y (xi))2 ∑ i=1 o y(xi): Man setzt in die Funktion y(x) = ax+b den jeweiligen x Wert ein o Man kann die Fehlerquadratsumme also nur bestimmen, wenn man bereits eine Funktion vorgegeben hat.  also der Wert der Regressionsgeraden an der Stelle x i o Beispiel für Funktion y= 2x+4  Also: (den 1. y-Wert - (2* den 1. x-Wert +4) 2  + (den 2. y-Wert - (2* den 2. x-Wert +4)2  + (den 3. y-Wert - (2* den 3. x-Wert +4)2  ...  Das Ergebnis ist die Summe der Fehlerquadrate

Koeffizient der Regressionsgerade 

Man kann auch einfach mittels einer Formel die Gerade so bestimmen, dass die Fehlerquadratsumme minimal wird.



Die Formel der Gerade lautet bekanntlich y(x) = ax + b o Wir müssen also a und b so bestimmen, dass die Summe der Fehlerquadrate minimal wird.



Für a:



Für b: y - a × x o Also den Mittelwert von y - a mal den Mittelwert von x



Eigenschaften der Regressionsgerade o Summe der Abweichungen ist 0

sy sx o Also den Korrelationskoeffizienten mal den Quotienten der beiden Standardabweichungen rxy ×

n

∑ ( yi − y ( xi ) ) =0 i=1



Man quadriert also die Abweichungen bei der Fehlerquadratsumme, weil man hier nicht will, dass sich positive und negative Abwe1ichungen ausgleichen. o Die Summe Der Abweichungsquadrate ist minimal o Die Regressionsgerade geht durch den Schwerpunkt (x ,y)  y(x) = a × x + b = y

Untersuchung der Varianz von Y  

y ist der Mittelwert von Y zu jedem xi (Wert von x) haben wir o yi (beobachteter Wert von y) o y(xi) Wert der Regressionsgeraden an der Stelle x i Wir wollen nun untersuchen, inwieweit sich die Schwankung der Werte von y um den Mittelwert bereits durch die Schwankung der Werte von x erklären lässt o Wir messen die Schwankung der yi um y durch die Varianz s2Y Für jeden Punkt gilt:





o (yi - y ) = (yi - y(xi)) + (y(xi) - y ) Daraus Folgt die Formel der Streuungszerlegung y ( xi )− ´y n

n

n

1 2 1 ( yi− ´y ) = ∑ ( yi− y( xi ))2 + 1 ∑ ( ¿ ) 2 ∑ n i=1 n i=1 n i=1  



Varianz von Y = Die Varianz der Abweichungen + die Varianz von y(x) o Varianz von Y = äußere Varianz + innere Varianz Die Varianz von Y wird also zerlegt in o Die Innere Varianz, die die Abwe...


Similar Free PDFs