Statistik ZSMpdf PDF

Title Statistik ZSMpdf
Author Jiyan Sahin
Course Datenerhebung & Statistik
Institution FOM Hochschule
Pages 34
File Size 1.4 MB
File Type PDF
Total Downloads 94
Total Views 130

Summary

ss19, Herr Ibrahim...


Description

Datenerhebung und Statistik 1. Wissenschaftliche Grundlage Kognitives Modell Datenanalyse !

Schema:! — mentales Modell, dass ganze Bandbreite der Infos über ein Thema beinhaltet! Modell:! — Repräsentation eines Ausschnitts innerhalb des Themas! Daten:! — Messungen der Realität! Realität — wissenschaftlicher Realismus besagt das eine reale Welt unabhängig von der Sicht des Betrachtenden existiert —> Quantitative Methoden! — Konstruktivismus nimmt an, dass Wissen über Wirklichkeit erst durch Wahrnehmung erschaffen wird —> Qualitative Methoden! Theorie — Strukturierte Sammlung von Hypothesen! — schlägt vorläufige Antwort auf offene Frage vor! — lässt sich kaum in ihrem vollen Umfang prüfen! — Theorien sind meist an kausalen Beziehungen interessiert! — Theorien ermöglichen Erklärungen, Vorhersagen, Nutzen!

Hypothese —> eine aus der Theorie oder Beobachtung abgeleitete Aussage! — weniger umfangreich als Theorien! — stellen Vermutungen über Sachverhalt an! — provisorische Antwort auf ein wissenschaftliches Problem! — lassen sich überprüfen (potentiell falsifizierbar) ! —> Hypothesen sind nie beweisbar, nur falsifizierbar! Kennzeichen einer wissenschaftlichen Hypothese:! — allgemein gültige über den Einzelfall hinausgehende Behauptungen! — Häufig: Formalstruktur eines Konditionalsatz, Implikation: wenn x (Antezedens), dann y (Konsequenz)! Modelle —> vereinfachte Darstellungen relevanter Teile der Realität! —> Repräsentation der Realität durch Modelle ermöglichte einfachere Analyse! — Darstellung graphisch, verbal, mathematisch-statistische Modelle! # — Instrumentarium der Mathematik wird zum optimieren eingesetzt! # — mathematische Modelle lassen sich gut statistisch überprüfen! # — Statistische Modelle sind mathematische Modelle die mit Daten gewonnen werden! Wissenschaftliche Schlusstechniken / Generierung von Hypothesen Induktion:! — Generalisierung von in Realität beobachteten Regelmäßigkeit zu allgemeineren Vermutung! # Häufige: Hypothesenbildung! # Bsp.: 30 Bohnen aus Sack gezogen..Alle weiß. Nochmal 30 Bohnen…Alle weiß. Aha die # # Bohnen müssen alle weiß sein! Deduktion:! — Ableitung von Aussagen aus anderen (allgemeineren) Aussagen mit Hilfe logischer Regeln! # Häufig: Hypothesenprüfung! # Bsp.: Ich habe die Bohnen in Sack gefüllt. Sie waren alle weiß. Jetzt nehme ich eine raus: # # sie ist weiß!! Abduktion:! — Verknüpfung von Einzelbeobachtungen und Erkennen von Regeln! # Bsp.: Vor mir steht ein sack und ich sehe Bohnen darin. Ich finde eine weiße Bohne # # irgendwo im Raum auf dem Boden. D. h. Die Bohne muss aus dem Sack sein!

#

Falsifikationsprinzip Induktionsproblematik:! Kann durch Induktion von Einzelbeobachtungen sicher auf ein allgemeines Gesetz auch in Zukunft geschlossen werden?! Falsifikationsprinzip:! Obwohl es nicht möglich ist, die Richtigkeit einer wissenschaftlichen Theorie auf Basis einer begrenzten menge von Daten zu beweisen, ist es möglich zu beweisen dass eine Theorie Falsch ist.! Bsp. Kann man beweisen dass alle Schwäne weiß sind?! # —> nicht möglich, da man ganze Welt bereisen müsste plus Zukunft/Vergangenheit! # —> Zu zeigen das Hypothese falsch ist einfach nur einen Schwarzen Schwan finden! Forschungsprozess generell Planung: ! — Formulierung der Forschungsfrage (Idee, Infosammlung,…)! Datenerhebung:! — Beobachtung, Experiment, Umfrage, Interview! Datenaufbereitung und Datenanalyse:! — Qualitativ und/oder quantitativ! Interpretation:! — Was sagt das Ergebnis aus? —> Schlussfolgerung!

Forschen Güterkriterien für Forschung:! — Ethische Aspekte —> können negative Folgen bei befragten auftreten?! — Transparenz —> Vorgehen ist dokumentiert und nachprüfbar?! — Objektivität —> Kommen andere zum selben Ergebnis?! — Interne Validität —> ist der behauptete Zusammenhang richtig?! — Externe Validität —> zeigt sich der behauptete Zusammenhang auch in anderen Situationen?! => Man muss beim Forschen versuchen all diese Punkte zu maximieren!

Qualitative und Quantitative Forschung Quantitative Methoden:! — Messung und numerische Beschreibung der Wirklichkeit! — Allgemeingültige Gesetze für die Grundgesamtheit! —> auf Gemeinsamkeiten wird Wert gelegt! Qualitative Methoden:! — Verbalisieren der Erfahrungswirklichkeit! — Untersuchungsgegenstand soll in natürlichem Umfeld detailliert erfasst werden! —> auf Besonderheiten der Individuen wird Wert gelegt! 2. Grundlagen Quantitativer Datenanalyse 2. 1 Grundbegriffe Messung — einer Eigenschaft eines Objektes wird win Wert zugewiesen! — Beziehung der Werte sollte der Beziehung der Eigenschaft der Objekte entsprechen! —> Definition des zu Messenden und gleichzeitig Beschreibung des Messvorgangs! Manifeste Variablen können direkt gemessen werden z. B. Größe ! (Manifest = beobachtbar)! Latente Variablen/Konstrukte können nicht direkt gemessen werden sie müssen erst operationalisiert werden z. B. Intelligenz! Güterkriterien einer Messung Genauigkeit:! — Exaktheit einer Messung z. B. Umsatz hoch/niedrig oder in Euro! Objektivität:! — Messung unabhängig vom Messenden z. B. Kreditrating verschiedener Agenturen! Reliabilität:! — Zuverlässigkeit einer Messung z. B. Bei wiederholter Messung das selbe Ergebnis! Validität:! — es wird das gemessen was gemessen werden soll z. B. Unternehmenserfolg! Messung: Varianz und Verzerrung — hohe Varianz der Messergebnisse: geringe Reliabilität! — Verzerrung/Bias des Messergebnisses: geringe Validität! —> immer eine Mischung!

Kategoriale Skalenniveaus —> Qualitativ Nominal:! — Merkmalsausprägungen können unterschieden werden, bspw. Geschlecht! —> =, ≠! Ordinal:! — Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden z. B. Schulabschlüsse! — Abstände zwischen den Werten können nicht direkt verglichen oder interpretiert werden! Ordinal = niedrig oder hoch! —> =,≠,! Numerische/metrische Skalenniveaus —> quantitativ, kardinal Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden, Abstände sind vergleichbar.! Intervallskala:! — Nullpunkt willkürlich gesetzt z. B. Zeitrechnung (Jahr 0)! —> =, ≠, , +/- bei Differenzen! Verhältnisskala:! — absoluter Nullpunkt gegeben z. B. Gewicht! —> =, ≠, , +, -, *, /! Weitere Unterscheidung:! Stetig:! — beliebige Zwischenwerte im Intervall sind möglich z. B. Größe! Diskret:! — höchstens albzählbar viele Werte sind möglich z. B. Anzahl Kinder ! Zusammenhangsanalyse Abhängige Variable (AV):! — Wert hängt von unabhängigen Variable ab (y)! Unabhängige Variable (UV):! — Wert hängt von keiner anderen Variable ab (x)! Kovariablen/Störvariablen:! — Variablen deren Wert ebenfalls auf die AV einwirkt und/oder den Zusammenhang zwischen UV und AV beeinflusst (z)! —> für ein x sind mehrere y möglich! —> Ignorieren von Kovariablen kann zu verzerrten Ergebnissen führen! 2.2 Datenerhebung Stichproben — Teilmenge der Population! —> Ergebnis einer Stichprobe zu generalisieren! z. B. Geschmack eines Suppenlöffels auf ganze Suppe beziehen! Population: Menge über die Aussage getroffen werde soll! Stichprobe: Teilmenge der Population die Analysiert wird! Stichprobenverfahren: Prozess mit dem Teilmenge ausgewählt wurde! Repräsentative Stichprobe: Verteilung der Eigenschaften der Stichprobe ähnlich der Population?! —> wenn der Löffel anders schmeckt als die Suppe war er nicht repräsentativ! Bias/Verzerrung: Teil der Population wird bevorzugt! Generalisierbarkeit: Inwieweit kann von Stichprobe auf Grundgesamtheit geschlossen werden?! Parameter: Wert der Population, an dem wir interessiert sind! —> Temperatur der Suppe insgesamt! Statistik: Wert, der auf Basis der Stichprobe berechnet wird! —> Temperatur der Suppe auf dem Löffel!

Stichprobenverfahren Zufallsstichprobe:! — jede Beobachtung hat gleiche Wahrscheinlichkeit Teil der Stichprobe zu sein! Geschichtete Stichprobe:! — mehrere Schichten aus ähnlichen Beobachtungen (Alter, Geschlecht,…)! —> einfache, zufällige Stichprobe aus jeder Schicht! => Zufällige Stichproben erlauben Generalisierbarkeit! => Gelegenheitsstichproben könne verzerrt sein! Beobachtungsstudien und Experimente Beobachtungsstudien:! — Daten sammeln ohne Entstehung der Daten zu beeinflussen (keine Kausalaussagen möglich)! Experiment:! — Wert der UV wird manipuliert und Variation der AV gemessen! — Zuordnung zu Experimentalkonditionen zufällig um Verzerrung zu vermeiden! — durch wiederholte Messung kann Effekt der Experimentalkonditionen geschätzt werden! —> hohe interne Validität! — bei Quasi-Experimenten ist Zuordnung nicht randomisiert! —> geringe interne Validität! Labor und Feldexperiment Laborexperiment: ! Untersuchung erfolgt innerhalb spezieller Versuchsanordnung (geringe externe Validität)! Feldexperiment: ! Untersuchung erfolgt im natürlichen Umfeld (hohe externe Validität)! Schlussmöglichkeiten

Griechische Buchstaben in den Folien Alpha: Fehler 1. Art! Beta: Fehler 2. Art! Delta: Symbol für allgemeine zusammenfassende Statistik (Kennzahl)! Epsilon: Symbol für Residuum! My: Symbol für Populationsmittelwert! Sigma: Symbol für Populationsstandardabweichung! Pi: Symbol für Populationsanteil! Chi: Symbol für zusammenfassende Statistik im Chi^2-Test!

4. Einführung R Vorteile Code — Dokumentation des Vorgehens# # # — Nachvollziehbarkeit, Wiederholung! — Direkte Kommunikation mit dem Programm!

#

#

!

Code: mosaic analysiere(): Was soll R tun?! ~: alt+n, |: alt+7! —> Was soll der Computer für mich tun?! —> Was muss der Computer dafür wissen?! R-Basics — Unterscheidung zwischen Groß- und Kleinschreibung! — Punkt = Dezimaltrennzeichen! — Fehlende Werte werden durch NA kodiert! — Kommentare durch # einleiten! — Ergebniszuweisung über % (Paket dplyr) übergibt Ergebnisse ! — Hilfe zur Funktion foo: ?foo! Beispiel Alcohol:! install.packages(„mosaic“) —> library (mosaic) —> Datensatz laden data(Alcohol) —> Datensatzbeschreibung ?Alcohol —> Daten betrachten View(Alchohol)! Datenvorverarbeitung —> Daten müssen oft vor eigentlichen Analyse vorgearbeitet werden! — Variablen auswählen: select()! — Beobachtungen auswählen: filter()! — Variablen verändern, neu erzeugen: mutate()! …! filter() wählt Beobachtungen aus Alcohol.Ger= nimm Datensatz Alcohol und filtere auf Beobachtungen, in denen Dt. Ist! Alcohol.Ger %! # filter(country == „Germany“)! View(Alcohol.Ger)! select() wählt Variablen aus Alcohol.2008= nimm Datensatz Alcohol und filtere auf Beobachtungen, in denen das Jahr 2008 ist, und dann selektiere die Variablen Land und Alkohol! Alcohol.2008 %! # filter(year == 2008) %>%! # select(country, alcohol)! View(Alcohol.2008)! arrange() sortiert Beobachtungen Alcohol.2008.sort= nimm Datensatz Alcohol.2008 und sortiere nach der Variable Alkohol! Alcohol.2008.sort %! # arrange(alcohol)! View(Alcohol.2008.sort)! mutate() verändert bzw. Erzeugt Variablen Funktion rank() gibt Rang einer Beobachtung zurück! Alcohol.2008.rank= nimm Datensatz Alcohol.2008 und erzeuge neue Variable rank als Rang der Beobachtung in der Variable Alkohol! Alcohol.2008.rank %! # mutate(rank = rank(alcohol))! View(Alcohol.2008.rank)!

Variablentypen in R Struktur des Datensatzes Alcohol: str(Alcohol)! str(Alcohol)! — Datensatz (data.frame) kann aus mehreren Variablen (Spalten) mit gleicher Anzahl Beobachtungen (Zeilen) bestehen! — für Variablen gibt es verschiedene Typen:! # — Zeichenkette (character) und Faktoren (factor)! # — Gleitkommazahlen (numeric bzw. Double) und Ganze Zahlen (integer)! —> kategorische Variablen sind character oder factor! 4. Explorative Datenanalyse 4.1 Daten einlesen Herunterladen:! download.file(„link“, destfile = „name Datei“)! Einlesen in R:! tips vertikale Ausrichtung! — Balkendiagramm: Häufigkeit von Merkmalsausprägungen! # —> horizontale Ausrichtung! — Mosaikplot: Darstellung der Merkmalsausprägungen zweier nominaler Merkmale! Häufigkeiten:! — Anteile: Relative Anteile der verschiedenen Merkmalsausprägungen kategorialer Merkmale (nominal, ordinal)! — Kreuztabelle: Tabelle der verschiedenen Merkmalsausprägungen kategorialer Merkmale (nominal, ordinäl), entweder in absoluten oder relativen Häufigkeiten! Plots erzeugen: Geschlecht Rechnungszahler*in Plot1 %! # gf_theme(scale_y_continuous(NULL, breaks = NULL))! Histogramm — Visualisiert (gruppierte) Verteilung einer numerischen Variable! — Flächeninhalt der Rechtecke entspricht der absoluten oder relativen Häufigkeit von Beobachtungen im Intervall (Klasse)! gf_histogramm( ~ total_bill, data = tips, binwidth = 10, center = 5)! binwidth= Breite der Säule! center= Zentrum einer beliebigen Säule! —> die meisten werte sind >10 und =< 20! !

Anzahl der Rechtecke festlegen mit bins = !

Verteilungen Verteilung gibt an, wie häufig bzw. Wahrscheinlich bestimmte Werte oder Wertebereich sind! Für numerische Variablen:! — Schiefe: bei rechtsschiefen (linkssteilen) Verteilungen sind mehr Werte im unteren Wertebereich, bei linksschiefe (rechtssteilen) im oberen ! — bei symmetrische Verteilungen verteilen sich die Daten symmetrisch um eine zentrale Lage! — bei mehrgipfligen Verteilungen gib es mehr als nur ein Zentrum, um das die Werte streuen! Variablentransformation Ggfs. Können Variablen durch Transformationen in Richtung einer symmetrischen Normalverteilung transformiert werden:! gf_histogram( ~ sqrt(total_bill), # Quadratwurzel der Variable! # # bins = 9, # # Anzahl Säulen! # # data = tips# # Datensatz! Verteilungsfunktion —> empirische Verteilungsfunktion gibt an, wie viele der n Beobachtungen kleiner oder gleich x sind!

Lagemaße —> sollen u. a. Zentrale Tendenz der Daten beschreiben! — Minimum bzw. Maximum -> kleinste bzw. Größte Merkmalsausprägung! — Modus/Modalwert -> häufigste Merkmalsausprägung! — Median/Zentralwert -> Merkmalsausprägung, die in der Mitte liegt! — Arithmetischer Mittelwert (mean) -> Summe aller Werte geteilt durch Anzahl! — Quantil -> p-Quantil ist Wert, für den gilt, dass er von p Prozent der Werte nicht überschritten wird! —> überall wo Median berechnet werden kann, kann auch Quantil berechnet werden ! —> auf nominalen Skalen darf kein Mittelwert berechnet werden!

Arithmetischer Mittelwert und Median — arithmetische Mittelwert minimiert die Summe der quadratischen Abweichungen! # —> Durchschnitt! — Median minimiert Summe der absoluten Abweichungen der Beobachtungen von einer Zahl! — Median ist robust gegen Ausreißer, arithmetische Mittelwert nicht! Streuungsmaße —> sollen Streuung/Variation der Daten beschreiben! Varianz:! — maß für durchschnittliche quadratische Abweichung zum Mittelwert! Standardabweichung:! — Quadratwurzel der Varianz! Variationskoeffizienz:! — erlaubt Vergleich von Standardabweichungen, da nicht von der Dimension abhängt in der gemessen wird! Interquartilsabstand:! — oberes Quartil = 75%-Quantil! — unteres Quartil = 25%-Quantil! Spannweite:! — Maximum-Minimum! —> Interquartilsabstand ist robuster gegen Ausreißer als die Standardabweichung! Trinkgeld Datensatz inspect() inspiziert Datensatz und gibt Übersicht über wesentliche Kennzahlen! inspect(tips)! Boxplot Visualisiert Verteilung von deskriptiven Kennzahlen und mögliche Ausreißer einer numerischen Variable! gf_boxplot( ~ tip, data = tips) %>%! # gf_theme(axis.ticks.x = element_blank(), axis.text.x = element_blank())! —> löscht x-Achse (ohne Gruppierung nicht sinnvoll)! Anatomie Boxplot — untere Linie der Box ist unteres Quartil (Q1)! — obere Linie der Box ist oberes Quartil (Q3)! — Punkt in der Box (oft auch eine Linie) ist Median! — Sollten Punkte außerhalb der Antenne sein, sind dies mögliche Ausreißer! Rechnungshöhe gruppiert nach Geschlecht Histogramm gruppiert nach Geschlecht:! gf_histogram( ~ total_bill # Variable, die analysiert wird! # # | sex, # # Variable, nach der gruppiert wird! # # bins = 9 # Anzahl Säulen! # # data = tips) # Datensatz! Boxplot Rechnungshöhe abhängig vom Geschlecht Analysiere über Boxplot:! gf_boxplot(total_bill ~ # abhängige Variable! # sex, # unabhängige Variable! # data = tips) # Datensatz! —> y = abhängige Variable in Abhängigkeit von unabhängiger Variable x ggf. Bedingt durch oder gruppiert nach z!

Modellierung (I/II) Daten = Modell + Rest! Modell: Gesamtmittelwert ! Favstats(total_bill ~ 1, data = tips)! Modellierung (II/II) Modell: Gruppenmittelwert je Anzahl Personen j= 1,…, 6, d. h. Die Rechnungshöhe wird durch jeweilige Anzahl Personen modelliert! favstats(total_bill ~ size, data = tips)! —> bei Analyse total_bill ~ size ist Rest kleiner als bei Analyse total_bill ~ 1 (ohne erklärende Variable)! —> für diese Reduzierung des Restes wird ein Preis gezahlt: in den einzelnen Gruppen sind weniger Beobachtungen: weniger Freiheitsgrade! 4.4 Zusammenhang zwischen numerischen Variablen Streudiagramm —> Visualisiert gemeinsame Verteilung von zwei i. d. R. Numerischen Variablen durch Punkte! —> bei diskreten Merkmalen ggfs. Verwackeln (jitter)! Plot1 Personen mit unterdurchschnittlichem Einkommen häufig auch unterdurchschnittliche # # Ausgaben! — Preis x und Absatz y: negativer Zusammenhang: ! # —> Produkte mit überdurchschnittlichem Preis häufig unterdurchschnittlichen Absatz! # —> Produkte mit unterdurchschnittlichen Preis häufig überdurchschnittlichen Absatz! !

Korrelationskoeffizienten —> Korrelationskoeffizient ist nicht ! Robust gegen Ausreißer!

Korrelation Rechnungshöhe und Trinkgeld Analysiere über Korrelationskoeffizienten:! cor(tip ~ total_bill, # Variablen! # data = tips) # Datensatz! 4.5 Zusammenfassung Visualisierung (Tipps) — Vermittle viele Zahlen, sonst brauchst du keine Grafik! — Vermeide Ablenkung von der Hauptbotschaft! — Fördere visuellen Vergleich! — Vermeide 3D! — Achte auf Achsenskalierung! Übersicht deskriptive Kennzahlen — favstats(): Zusammenfassung Kennzahlen numerischer Variablen! — Einzeln, z. B. mit:! # — mean(): Mittelwert (metrisch)! # — median(): Median (ordinal, metrisch)! # — iqr(): Interquartilsabstand ((ordinal), metrisch)! # — sd(): Standardabweichung (metrisch)! — cor(): Korrelationskoeffizient (zwei metrische Merkmale. Für Ordinate Merkmale: Rangkorrelation method=„spearman“)! — prop(): Anteile (nominal, ordinal, metrisch diskret - relative Häufigkeiten einer Ausprägung)! — tally(): (Kreuz-)tabellierung (nominal, ordinal, metrisch diskret - absolute oder relative Häufigkeiten aller Ausprägungen)! 5. Normalverteilung Zufallsvariable — Zufallsvariable X ist Variable, deren Wert x vom Zufall abhängt! — Beobachtungen xi können aufgefasst werden als Realisationen von Zufallsvariablen X! — Verteilungsfunktion F(x) sagt wie wahrscheinlich es ist, einen Wert Verteilungsfunktion ist monoton steigend, d. h. Mit größerem x wird F(x) zumindest nicht kleiner!

Standardisierung, z-Transformation z-Transformation, Standardisierung: ! — Überführung einer beliebigen Verteilung in eine mit μ = 0 und σ = 1!

—> z-transformierung macht Verteilung nicht normal, wenn Variable vorher normal Verteilt war! 68-95-99,7 %-Regel Bei einer Normalverteilung liegen ca. ! 68% der Werte im Bereich μ±1·σ# 95% der Werte im Bereich μ±2·σ# 99,7% der Werte im Bereich μ±3·σ. ! xpnorm(c(-2,2)) # Standardnormalverteilung !

Quantilsfunktion Man gehört zu den 10% besten ab 74 Punkten bei einer Klausur:! #

q = F^-1(p)!

xqnorm(0.9, mean = 55, sd = 15)! —> je kleiner p, desto kleiner q! Überprüfung Normalverteilungsannahme — Q-Q Plot (gf_qq()) vergleicht Quantile einer Verteilung! —> bei guten Übereinstimmung liegen Punkte auf Diagonalen!

6. Inferenzstatistik 6.1 Einführendes Beispiel Einführung: ist die Münze gezinkt? — jemand wirft Münze 10 mal! — bei Kopf gewinnt die Person bei Zahl gewinne ich! — andere Person gewinnt 8 von 10 Würfen! —> ist die Münze anhand dieser Daten gezinkt?! Die Verteilung der Stichproben aus dem Münzversuch (hier n = 100)! —> Münze ist fair pi = 0.5! —> 4 bis 6 Treffer sind häufiges Ergebnis!

Was ist eine Computersimulation? —> durchführen von Zufallsexperimenten (Münzwurf) kann an Computer delegiert werden! —> man spricht von Simulation! R, wiederhole da Folgende 100 Mal:! #

— Wirf eine faire Münze 10 Mal!

#

— zähle jedes Mal die Anzahl der Treffer (Kopf)!

Speichere das Ergebnis in neuen Datensatz.! library(mosaic) # Paket laden! set.seed(1896) # Reproduzierbarkeit! Muenzverteilung Kategoriales Skalenniveau hat Merkmal „Probe“ mit den Werten „falsch“ und „richtig“!

6.3 ...


Similar Free PDFs