Statistik Lernskript PDF

Title Statistik Lernskript
Author Katharina Philippi
Course Datenerhebung & Statistik
Institution FOM Hochschule
Pages 10
File Size 363.9 KB
File Type PDF
Total Downloads 34
Total Views 167

Summary

Download Statistik Lernskript PDF


Description

Messung:   



Manifeste Variablen: können direkt gemessen werden (Größe, Gewicht) Latente Variablen/Konstrukte: können nicht direkt gemessen werden, müssen erst Operationalisiert werden (Intelligenz, Konzentrationsfähigkeit) Varianz: Die Varianz ist ein Streuungsmaß, welches die Verteilung von Werten um den Mittelwert kennzeichnet. Sie ist das Quadrat der Standardabweichung. Hohe Varianz= gerige Reliabilität Verzerrung = Bias des Messergebnisses, hohe Verzerrung = geringe Validität

Gütekriterien einer Messung: Genauigkeit = Exaktheit einer Messung (Waage misst genau) Objektivität = Messung unabhängig von Messenden (egal wer wiegt) Reliabilität = Zuverlässigkeit einer Messung (bei Wiederholung gleiches Ergebnis) Validität = Es wird das gemessen, was gemessen werden soll 1. Kategoriale Skala: qualitativ, Anteile Häufigkeiten darstellen: Tabelle, Histogramm a) Nominal = Merkmalsausprägungen können unterschieden werden, nicht sortierbar, keine Ordnung, Bsp. Geschlecht, Religion b) Ordinale Skala = Merkmalsausprägungen können unterschieden und in Reihenfolge/Hierarchie gebracht werden, Bsp. Bildungsabschlüsse. Abstände zw. Werten nicht direkt vergleichbar, Abstand nicht griffig bewertbar/interpretierbar. 2. Numerische Skala = quantitativ, oder auch Metrische (messbar)/ kardinal Skala Merkmalsausprägungen können unterschieden und in Reihenfolge gebracht werden, Abstände sind vergleichbar. a) Verhältnisskala = absoluter Nullpunkt gegeben, daher kann ich sagen, dass „doppelt so viel“ (Quotient) fest interpretierbar ist, Bsp. Gewicht, Geld b) Intervallskala = Nullpunkt gesetzt, Bsp. Temperatur, aber nicht gefühlt 20 Grad doppelt so warm wie 10 Grad , keine feste Interpretation/ins Verhältnis setzen möglich (Quotient nicht fest interpretierbar) Weitere Unterscheidung: 

Stetig = beliebige Zwischenwerte in Intervall möglich, kontinuierliche Entwicklung, Endlos-Daten, Bsp. Größe, Gewicht, Geldbeträge



Diskret = ganzzahlig, feste Abstände, Bsp. Anzahl Kinder (es gibt keine halben Kinder), nie normalverteilt (für normalverteilung ist Stetigkeit Grundvorraussetzung, denn Zwischenwerte notwendig)

-- > diskrete Daten in stetige umwandeln, notwendig für Forschung Abhängige Variable (AV): endogen, erklärt. kommt aus dem Modell heraus = y, ist die Variable, deren Wert von der unabhängigen Variable, welche verändert wird, abhängt.

Unabhängige Variable (UV): exogen, erklärend. kommt von außen = x, ist die Variable, die eine Menge darstellt, welche in einem Experiment manipuliert wird bzw. die man beeinflussen kann. Kovariablen/Störvariablen: Variablen, deren Wert ebenfalls auf AV wirkt oder Zusammenhang zw. UV & AV beeinflusst Stichprobe = Teilmenge der Population/Grundgesamtheit, in der Regel ist Ziel von Ergebnis einer Stichprobe auf Gesamtheit zu verallgemeinern (von Geschmack auf Suppenlöffel auf ganze Suppe schließen) (einfache) Zufallsstichprobe: jede Beobachtung hat gleiche Wahrscheinlichkeit, Teil der Stichprobe zu sein. Erlauben Schluss auf Grundgesamtheit/Population (Kausalschluss, Generalisierbarkeit). Geschichtete Stichprobe: setzen sich Schichten aus ähnlichen Beobachtungen zusammen, (Alter, Geschlecht). Es wird einfache Zufallsstichprobe aus jeder Schicht genommen. Gelegenheitsstichprobe: schlechteste Stichprobe, kann verzerrt sein Population = Menge über die Aussage getroffen werden soll (die ganze Suppe) Stichprobenverfahren = Prozess, mit welchem Teilmenge ausgewählt wird, Bsp. Zufällig wo und wie Löffel mit Suppe gefüllt wird Repräsentative Stichprobe = Ist Verteilung der Eigenschaften in Stichprobe ähnlich der Population? Wenn Löffel anders schmeckt als Suppe, war Löffel nicht repräsentativ Bias/Verzerrung = Teil von Population wird bevorzugt (nur Fleischbällchen auf Löffel) Generalisierbarkeit = Inwieweit kann von Löffel/Stichprobe auf Grundgesamtheit geschlossen werden? Nach Umrühren sollte Suppe auf Löffel so sein, dass wir auf Suppe im Topf schließen können Parameter = Wert der Grundgesamtheit, an dem wir interessiert sind, Bsp. Temperatur der Suppe Statistik = Wert auf dessen Basis die Stichprobe errechnet wird, Bsp. Temperatur der Suppe auf Löffel Beobachtungsstudie: Werte werden so verwendet wie sie sind Experiment: Werte werden manipuliert Laborexperiment: Untersuchung innerhalb von Spezieller Versuchsanordnung Feldexperiment: Untersuchung erfolgt im natürlichen Umfeld Häufigkeiten: tally() - Kreuztabelle 

Relative: wie viel % der Anteil der absoluten Häufigkeit an der Gesamtzahl der Versuche ist. Confusion oft he inverse = wovon wird die relative Häufigkeit angegeben? Der relative Anteil der Raucher am Freitag entspricht NICHT dem relativen Anteil des Freitags der Raucher.



Absolute: gibt an, wie oft ein bestimmtes Ereignis eintritt (Anzahl)



Je stärker die Streuung, desto weniger aussagekräftig ist mean, deshalb immer Lage- & Streumaß wichtig!

Diagramme/Grafiken: 

Säulendiagramm: Häufigkeit von Merkmalsausprägungen (nominal, ordinal, metrisch diskret), vertikale Ausrichtung, Darstellung durch Höhe der Säulen gf_bar()



Balkendiagramm: Häufigkeit von Merkmalsausprägungen, horizontale Ausrichtung, (nominal, ordinal, metrisch diskret) – gf_barh()- bargraph( ~ sex, data = tips, type = "percent")



Mosaikplot: Darstellung der Merkmalsausprägungen zweier nominaler Merkmale, mosaicplot()



Histogramm: EIN Merkmal = Histogramm, visualisiert Häufigkeit von gruppierten Merkmalsausprägungen (metrisch/numerisch), Flächeninhalt entspricht absoluter oder relativer Häufigkeit, gf_histogram()



Boxplot: Visualisierung von Verteilung von deskriptiven Kennzahlen und mögl. Ausreißer einer numerischen Variable. Kasten oben = oberes Q3 und unteres Quartil Q1, Minimum und Maximum = Antennen, Ausreißern (metrisch), Linie = Median, Punkte außerhalb Antennen = Ausreißer, gf_boxplot()



Streudiagramm: Darstellung der Merkmalsausprägungen von zwei i. d. R. metrischen/numerischen Merkmalen/Variablen durch Punkte, gf_point()



Liniendiagramm: Verlauf der Merkmalsausprägung eines Merkmals, gf_line()



Dotplot: zeigt Häufigkeiten der einzelnen Ausprägungen an (Häufigkeitsdarstellung) (nominal, ordinal, metrisch).

Kennzahlen  Lagemaß: beschreibt u. a. die zentrale Tendenz einer Verteilung 

Streumaß: beschreibt die Verteilung der Daten (häufig um das Lagemaß)



Schiefe: beschreibt die Form der Verteilung

Lagemaße sollen die zentrale Tendenz der Daten beschreiben: 

Minimum bzw. Maximum: kleinste bzw. größte Merkmalsausprägung



Modus / Modalwert: häufigste Merkmalsausprägung (nur für kategoriale Daten)



Median / Zentralwert: Merkmalsausprägung, die bei (aufsteigend) sortierten Beobachtungen in der Mitte liegt; 50% größer – 50% kleiner, ist 50% Quantil einer Verteilung (Robust gegen Ausreißer)



Arithmetischer Mittelwert (engl. mean): Summe aller Werte geteilt durch die Anzahl: � =1� ����=1



Quantil: Das p-Quantil ist der Wert, für den gilt, dass er von p Prozent der Werte nicht überschritten wird

Streuungsmaße (wie weit weichen ALLE Werte in Verteilung durchschnittlich vom arithmetischen Mittel ab, je stärker die Streuung, desto unverlässlicher der Mittelwert/keine gute Schätzung) 

Varianz: Summer der quadrierten Abweichungen vom Mittelwert, durch quadrieren werden Abweichungen zum Mittelwert nach oben oder unten gleich behandelt und größere Abweichungen dadurch stärker gewichtet



Standardabweichung: Quadratwurzen von Varaianz



Interquartilsabstand: oberes Quartil (75%) – unteres Quartil (25%), Q3-Q1, robust gegen Ausreißer da äußere Ränder der Verteilung ignoriert werden. Q1 – 1,5 *IQR = Ende untere Antenne, Q3 + 1,5*IQR = Ende obere Antenne, alles jenseits von Antennen sind Ausreißer



Spannweite: Maximum – Minimum, sehr anfällig für Ausreißer

Zusammenhang zwischen numerischen Variablen 

Kovarianz: beschreibt linearen Zusammenhang zwischen zwei metrischen Merkmalen. Abweichungen bei zwei Merkmalen in Rchtg. X und y.



Korrelationskoeffizient: normiert die Kovarianz auf den Wertebereich −1 bis +1. Korrelationskoeffizienten r > 0 zeigen einen positiven linearen Zusammenhang an, r < 0 einen negativen. Je größer |r|, desto größer ist der lineare Zusammenhang. Ausreißer wird mit gleichem Anteilsgewicht berücksichtigt, entsprechend nicht robust gegen Ausreißer. cor(): Korrelationskoeffizient (zwei metrische Merkmale. Für ordinale Merkmale: Rangkorrelation method = "spearman"). Immer erst Visualisieren, dann korrelieren!

Verteilungen 

Schief: linksschief, rechtsschief, tail



Symmetrisch/Gleichverteilt: alle Balken fast gleich hoch



Mehrgipfelig/multimodal: mehrere Gipfel



Zweigipfelig/bimodal: 2 Gipfel

Normalverteilung: 

Dichtefunktion: gibt einzelne Wahrscheinlichkeiten an. Glockenkurve, Gipfel ist immer mü/Mittelwert der Population plus Sigma = Standardabweichung. Ändert sich mü, wird Gipfel verschoben, wird Sigma größer = Kurve flacher, wird Sigma kleiner = Kurve steiler)



Verteilungsfunktion: summiert die Wahrscheinlichkeiten (ansteigende Kurve strebt nach 1)



Bei Normalverteilung: o

68 % Werte im Bereich mü +-1 Sigma

o

95 % Werte im Bereich mü +-2 Sigma

o

99,7 % Werte im Bereich mü +-3 Sigma



Sigma: +- 1 Sigma=68%, +- 2 Sigma = 95%



Quantilsfunktion: Umkehr der Verteilungsfunktion

Die deskriptive Datenanalyse (einzelne Daten/Variablen einer Stichprobe mit Hilfe von Kennwerten zu beschreiben und grafisch oder tabellarisch darstellen)   



Bei schiefen Verteilungen ist Mittelwert schwer interpretierbar, da dieser von extremen Werten beeinflusst ist Bimodal: zwei häufigste Werte/Modalwerte, Mittelwert auch nicht aussagekräftig da keine Mitte vorhanden. Großteil von Statistik in Sozialwissenschaft und Psychologie basiert auf Normalverteilung, zusätzlich nur noch Mittelwert & Streuung zur Beschreibung notwendig. Für Testverfahren Daten immer zuerst auf Normalverteilung prüfen. z-Wert/Z-Verteilung: um Ergebnisse aus verschiedenen Testverfahren vergleichbar zu machen, wird auf z-Wert transformiert z-Werte haben immer Mittelwert 0 und Standardabweichung 1  normalverteilte Rohwerte ergeben automatisch

„Standardnormalverteilung“. Oder Z-Verteilung erlaubt zu gucken, ob ein bestimmter Wert in einer Stichprobe sich signifikant von den anderen unterscheidet



Die z-Standardisierung macht Messwerte von verschiedenen Skalen bzw. aus verschiedenen Stichproben vergleichbar, indem sie jedem Messwert einen standardisierten z-Wert aus der Standardnormalverteilung zuordnet, der eindeutig interpretierbar ist.

Explorative Datenanalyse (Muster & Zusammenhänge erkennen) grundlegende Arten von Berechnungen  Korrelation und Regression grafische Analyse  Boxplot, Stamm-und-Blatt-Diagramm und Streudiagramm 

 



Boxplot: Stellt Rohdaten unverzerrt dar und stellt Ausreißer fest. Grauer Kasten ist Interquartilsabstand der Daten bzw. mittlere 50% der Daten, untere und obere 25% bleiben unberücksichtigt, längere Box bedeutet stärkere Streuung  bevorzugte Darstellung für Lage- und Streuungsmaße und zum Feststellen von Ausreißern (Diese eliminieren, da sonst bei weiterführenden Analysen stören). Streudiagramm: Zusammenhänge zw. 2 Variablen suchen. Alle Punkte bilden Punktewolke. Schön um Gefühl für Daten zu bekommen Kennwert für Ausmaß des linearen Zusammenhanges von 2 Variablen ist Korrelation (Frage nach Zusammenhang oder Unterschied zw. Merkmalen/Variablen ist zentral in Psychologie) Korrelationskoeffizient

Voraussetzung für Berechnung von KKE = intervallskalierte Daten & Daten müssen in linearem Zusammenhang stehen (Prüfung: Streudiagramm, immer vorher angucken!) Korrelation heißt nicht automatisch, dass Kausalzusammenhang zwischen Variablen besteht. Dafür muss Experiment gemacht werden.

Inferenzstatistik (Schließen auf Gesamtpopulation) Ziel der Inferenzstatistik sind Schlüsse von einer Stichprobe auf eine Population sowie Aussagen über die Güte dieser Schlüsse. 

Unterschiede:

o Deskriptive Statistik – viele Daten in Kennzahlen komprimieren (Varianz, Mittelwert,etc)

o Inferenzstatistik – von Stichprobe auf Grundgesamtheit schließen/Schluss ziehen 

 

Stichprobenverteilung: o mehrere Stichproben zu derselben Frage und Kennwerte (Mittelwert etc.) in einer neuen Verteilung abbilden, um genauere Werte zu bekommen als in einer einzigen Stichprobe möglich  stellen Glockenkurve dar, Verteilung der Kennwerte einer großen Anzahl von Stichprobenergebnissen nähert sich immer einer Normalverteilung. o Mittelwerte selten ganz klein oder ganz groß, also auch Kurve der Stichprobenverteilung wenig am Rand der Glocke o Mit steigender Stichprobengröße der einzelnen Studien sinkt die Streuung der resultierenden Stichprobenverteilung, da größere Anzahl von Stichproben genauere werte liefern würde Standardfehler: Er beziffert die Ungenauigkeit, wenn wir ein Stichprobenergebnis auf die Population verallgemeinern. Sigma = Standardabweichung der Population (Sigma mit Dach = geschätzt) Güte eines Mittelwertes der Population = Konfidenzintervall.

Ein Konfidenzintervall ist ein Wertebereich, bei dem wir darauf vertrauen können, dass er den wahren Wert in der Population mit einer gewissen Wahrscheinlichkeit (der Vertrauenswahrscheinlichkeit) beinhaltet  Bootstrap: Zufällige Stichprobe mit Größe n durchführen, weitere Stichprobe aus der selben Menge durch zurücklegen ziehen (dadurch werden andere Stichproben 

erzeugt und einzelne Daten können häufig auftreteten). Danach dann Konfidenzintervallen bilden um möglichst große Mittelwahrscheinlichkeiten zu erstellen. Korrelation: Zusammenhänge zwischen zwei Variablen aufdecken und quantitativ beschreiben. Regression/Vorhersageanalyse: wenn wir wissen, dass zwei Variablen korrelieren, dann können wir die Werte einer Variable benutzen, um die Werte auf der anderen vorherzusagen. Diese Idee der Vorhersage ist der Grundgedanke der Regression. Für Vorhersage von Y mit Hilfe von X brauchen wir Gerade, die jedem X ein Y zuordnet  wichtig für Gerade: Schnittpunkt mit Y-Achse und Steigung  Meist weichen Schätzwerte von Gerade ab, dann Vorhersagefehler oder Residuum 

Hypothesentests     



  

Hypothesen (oder Annahmen) sind einfache Aussagen, die sich aus einer Theorie ableiten. Ausganssituation ist Stichprobe Hypothesen beziehen sich immer auf Zusammenhänge zwischen Variablen oder auf Unterschiede zwischen bestimmten Gruppen Effekte: Auswirkungen von unabhängigen Variablen auf abhängige Variablen (bei Unterschieden sowie in Zusammenhängen/Korrelationen) Um festzustellen wie sehr man empirisch gefundenen Mittelwertsunterschied oder Abweichung auf Population übertragen kann (Effekte können IMMER auch Zufall sein), kann man z. Bsp. Standardfehler berechnen oder Konfidenzintervalle bestimmen ODER Signifikanztests durchführen Da bei Hypothesentests immer eine Entscheidung gefällt werden soll, wäre die Angabe von Mittelwertunterschied und Standardfehler zu wenig. Konfidenzintervalle und Signifikanztests liefern praktische Entscheidungshilfen. Bei Zusammenhängen von zwei Variablen beschreibt der Korrelationskoeffizient r die Enge des Zusammenhangs. Die alles entscheidende Grundlage für den Signifikanztest sind Stichprobenverteilungen Beim Signifikanztest werden immer Hypothesen gegeneinander getestet: Nullhypothese H0 (Behauptung = kein Effekt, kein Zusammenhang in Population oder, das was vom Hersteller behauptet wird) & Alternativhypothese H1 (Behauptung = es besteht Effekt/Zusammenhang in Population) Idee dahinter: ausgehend davon, dass in Population kein Effekt ist, dann können auch Studien zu dieser Fragestellung keinen Effekt finden oder höchstens Effekt um Null herum. Wahrscheinlichkeit große Effekte zu finden, muss entsprechend klein sein. Großer Effekt kann also als nicht wahrscheinlich gesehen werden unter Prämisse dass

Nullhypothese (es gibt keinen Effekt) zutrifft. Also muss Nullhypothese abgelehnt/verworfen werden und Alternativhypothese angenommen werden (es gibt Effekt). D.h.: Stichprobenverteilung von Nullhypothese in der Regel rund um Null (Mittelwert rund um Null) Andere Formulierung: Nullhypothese behauptet, dass in Population kein Effekt vorhanden ist und wenn in Stichprobe Effekt ist, dann ist das Zufall. p-Werte: ist die Wahrscheinlichkeit (z. Bsp. 5%), dass in einer Stichprobe der gefundene Effekt oder ein größerer Effekt auftritt unter der Annahme, dass Nullhypothese gilt. Bei p-Wert über 5% (0,05) nehmen wir H0 an, bei p-Wert unter 5% (0,05 = Irrtumswahrscheinlichkeit) wird H0 verworfen.

Alpha Fehler/Fehler erster Art: führt dazu, dass wir die Nullhypothese fälschlicherweise verwerfen/ablehnen. Beta Fehler/Fehler zweiter Art: führt dazu, dass wir die Alternativhypothese fälschlicherweise ablehnen.

Z-Verteilung: erlaubt zu gucken, ob ein bestimmter Wert in einer Stichprobe sich signifikant von den anderen unterscheidet t-Wert = überall da angewendet werden, wo es um Mittelwertsunterschiede,

Korrelationskoeffizienten und Regressionsgewichte geht. T-Test =    

Vergleicht 2 Gruppen Bildet Mittelwert jeder Gruppe Bildet Differenz zwischen Mittelwerten Ergebnis = p-Wert

Rufen wir uns noch einmal kurz die Idee der Inferenzstatistik ins Gedächtnis: Wir wollen Aussagen darüber machen, wie sehr wir der Schätzung eines Populationseffektes aufgrund eines Stichprobeneffektes trauen können. Dafür haben wir drei Möglichkeiten kennengelernt. Der Standardfehler gibt an, mit welchem „durchschnittlichen“ Fehler bei einer solchen Schätzung zu rechnen ist. Konfidenzintervalle geben einen Bereich von Werten auf der abhängigen Variable an,

der den wahren Wert in der Population mit einer bestimmten Wahrscheinlichkeit enthält. Und Signifikanztests fragen nach der Wahrscheinlichkeit, mit der ein Effekt auftreten konnte, wenn in der Population eigentlich die Nullhypothese zutrifft. Konfidenzintervalle und Signifikanztests liefern dabei einfache und schnelle Entscheidungshilfen: Konfidenzintervalle deshalb, weil man dort meist nur schaut, ob sie den Wert 0 beinhalten oder nicht, und Signifikanztests, weil dort lediglich geprüft wird, ob der p-Wert kleiner oder größer als Alpha ist. Die drei genannten Verfahren sind Möglichkeiten, um die Güte der Schätzung zu beurteilen. Chi Quadrat Test = testet Zusammenhang zwischen 2 kategorialen Daten Punktschätzung = Wert einer Stichprobe. Bsp. Anteil Raucher in Bevölkerung messen, Stichprobe 100 Pers. Werden befragt. 35 Pers. Antworten mit „Raucher“ – ergo wird Anteil mit 35 % „auf den Punkt“ geschätzt. Bei mehreren Befragungen ist Wahrscheinlichkeit hoch, dass nicht wieder genau 35 % „Raucher“ sagen. Ergo entspricht Punktschätzung 35% nicht genau dem Raucheranteil der Bevölkerung. Bereichs-Intervallschätzung = man könnte Intervallschätzung einbinden, die den Anteil der Raucher zwischen 33 und 38 % bemisst, was die Aussage zwar ungenauer, die Wahrscheinlichkeit hingegen zutreffender macht. Residuen: 

sollen möglichst „normalverteilt“ sein



Median also um die 0



QI & QIII möglichst symmetrisch

R ² = Erklärung für Passgenauigkeit des Regressionsmodells 

Je näher an 1, desto besser „erklärt“ sind die Zusammenhänge des Modells



Je näher an 0, desto...


Similar Free PDFs