Zusammenfassung Datenerhebung und Statistik PDF

Title	Zusammenfassung Datenerhebung und Statistik
Author	Philipp Schnorrenberg
Course	Datenerhebung & Statistik
Institution	FOM Hochschule
Pages	24
File Size	2.1 MB
File Type	PDF
Total Downloads	30
Total Views	143

Preview

CLICK TO PREVIEW PDF

Summary

Sommersemester 2019, FOM Hagen, Dr. Christian Soost...

Description

Zusammenfassung - Sauer Datenerhebung & Statistik (FOM Hochschule für Oekonomie & Management)

StuDocu wird von keiner Universität gesponsert oder unterstützt. Heruntergeladen durch Fabian Bo ([email protected])

Datenerhebung und Statistik Wissenschaftstheorie Drei Schlussarten der Wissenschaft Induktion = Sammlung vieler Einzelbeobachtungen, Verallgemeinernde Schlussfolgerung + Nahe an der „Wirklichkeit“ - praktisch, aber nicht unfehlbar, Einzelaussagen können nie sicheres Wissen erzeugen Beispiel:

Katze streicheln  weiches Fell; noch eine Katze streicheln  auch weiches Fell  alle Katzen haben weiches Fell

Abduktion = Lose verknüpfte Einzelbeobachtungen werden zu einer Theorie verknüpft, „Spekulation“ + kreativ, schafft neues Wissen - Fehleranfällig Beispiel:

eine weiße Katze sitzt auf dem Sofa  ein weißes Haar liegt auf dem Teppich  es muss von der Katze sein!

Deduktion = aus Allgemeinaussagen (Theorie) Hypothesen logisch abgeleiten, logische Schlussfolgerung + sicheres Wissen bei korrekter Ausführung - keine wirklich neuen Erkenntnisse möglich Beispiel:

ich bürste eine weiße Katze  die Haare, die in der Bürste hängen bleiben, sind weiß

Werte in der Wissenschaft Nachprüfbarkeit = wissenschaftl. Ergebnisse nicht glauben; jeder soll es nachprüfen können Kritik = höchste Standards setzen, um bessere Antworten und Fragen zu finden Kreativität = „Neuland des Denkens“, „Natur versteckt sich“ Bescheidenheit = andere Erklärungen können und werden irgendwann besser sein als die jetzigen Pseudo- oder Anti-Wissenschaft - Aussagen müssen geglaubt und dürfen nicht überprüft werden - Autoritäten, die nicht kritisiert werden oder unfehlbar sind - Kritik wird bestraft

Theorie

= Sammlung von Hypothesen vorläufige Antwort auf offene Frage interessiert an kausalen Beziehungen

- nicht-sachliche Methoden oder Meinungsbildung - einige Hypothesen sind „tabu“ - Recht zur freien Rede eingeschränkt - Nachdenken wird behindert - Falsifikation wird unmöglich gemacht

kaum in vollem Umfang (auf einmal) prüfbar z. B. Darwins Evolutionstheorie

gute Theorie: ermöglichst präzise Vorhersagen, stiftet Nutzen in der Welt Hypothese

= aus Theorie abgeleitete Aussage weniger umfangreich Vermutungen über Sachverhalt überprüfbar  nicht beweis-/bestätigbar, aber falsifizierbar (also zeigen, dass sie falsch ist)

Heruntergeladen durch Fabian Bo ([email protected])

Messen Skalenniveaus

, Größen können im Verhältnis stehen

Heruntergeladen durch Fabian Bo ([email protected])

Univariate Deskriptivstatistik  gibt Überblick über Daten, hilfreich bei großen Datenmengen Lagemaße  gibt die „Lage der Mitte“ oder „zentrale Tendenz“ an, 1 Wert soll alle Werte gut repräsentieren Arithmetisches Mittel Auch: Mittelwert, aM, Durchschnitt - ab intervallskalierten Daten verwendbar - Berechnung: Summe der Einzelwerte geteilt durch die Anzahl der Werte - blaue Balken = jeweilige Abstände zum Mittelwert  Summe = Null - Länge der Balken überhalb der Mittelwertslinie = Länge der Balken unterhalb der Mittelwertslinie Median = mittlerer Wert einer Verteilung, zudem es gleich viele kleinere und größere Werte gibt - ab ordinalskalierten Daten verwendbar 7

- Vorteil gegenüber Mittelwert: Median sehr robust, lässt sich von Extremwerten weniger beeinflussen (Beispiel: durchschnittliches Gehalt, wenn Bill Gates dabei ist) Modus / Modalwert = häufigster Werte einer Verteilung - verwendbar ab nominalskalierten Daten Streuungsmaße Mittlere Absolutabweichung (MAA) = durchschnittliche Absolut-Abweichung (Vorzeichen ignorieren) zwischen dem Mittelwert und den gemessenen Werten Varianz = durchschnittliche quadrierte Abweichung zwischen dem Mittelwert und den gemessenen Werten Standardabweichung (sd) = Quadratwurzel der Varianz  sd = √var - kleine Standardabweichung = gemessene Werte liegen nahe am Mittelwert - große Standardabweichung = gemessene Werte streuen weit um den Mittelwert Die Normalverteilung z-Werte  Transformation des Wertes x in den Wert z µ = Mittelwert, sd = Standardabweichung, i = Person, x = Wert

Heruntergeladen durch Fabian Bo ([email protected])

Die Normalverteilung - Gestalt

Heruntergeladen durch Fabian Bo ([email protected])

Zusammenhangsmaße bei metrischen Variablen Zusammenhang = wenn ein Wert hoch ist, ist der andere Wert auch hoch

 Rückschlüsse möglich  KEINE Rückschlüsse möglich

Abweichungs-Rechtecke

Kovarianz = durchschnittliches Rechteck = durchschnittliches Produkt der Abweichungen von X u. Y = Maß für linearen Zusammenhang zweier Variablen  unabhängig von der Anzahl der Werte  kein minimaler und maximaler Wert

Heruntergeladen durch Fabian Bo ([email protected])

Kovarianz ist somit „unge-deckelt“  Aussage, ob sie groß ist, ist schwierig Korrelationskoeffizient „r“ Wertebereich von -1 (perfekte negative lineare Korrelation) über 0 (kein linearer Zusammenhang) bis 1 (perfekte positive lineare Korrelation) beide Variablen werden z-transformiert

 Stärke und Richtung des Zusammenhang wird unabhängig von Skalierung / Varianz der Variablen  unempfindlich gegenüber Maßstabsunterschieden in den untersuchten Merkmalen  Korrelation wird dadurch nicht beeinflusst

Korrelation = „durchschnittliches Rechteck“ der z-transformierten Variablen

Variablen Aufaddieren aller Anzahl Rechtecke grobe Faustregel von J. Cohen: r ≈ ±.1  „schwach“ r ≈ ±.3  „mittel“ ab r ≈ ±.5  „stark“ r = +1 / -1  perfekte Korrelation (alle Messwertpaare liegen auf einer Geraden)

Einschränkung des Ranges Verringerung des Wertebereichs und damit der Streuung  Verringerung der Höhe der Kovarianz und damit der Korrelation  eine von zwei zu korrelierenden Variablen hat fast keine Varianz  kleine Korrelation  wenn zwei Variablen korrelieren, heißt das nicht (unbedingt), dass es einen ursächlichen (kausalen) Zusammenhang gibt! Beispiel: Babys – Störche

Heruntergeladen durch Fabian Bo ([email protected])

Zusammenhangsmaße bei dichotomen Variablen

 „Das Chancenverhältnis Odds-Ratio für ein einwandfreies  Produkt beträgt 1,25 zu 1.“

Chancenverhältnis misst die Stärke des Zusammenhangs zweier dichotomer (zweiwertiger) Variablen Chance = Verhältnis zweier Häufigkeiten oder relative Häufigkeit OR  Wert von 1 Variablen hängen nicht zusammen, unabhängig von einander Wert größer als 1  Zusammenhang positiv (gleichsinnig) Wert kleiner 1  Zusammenhang negativ (gegensinnig) Untere Grenze von OR = 0 Obere Grenze von OR = unendlich Interpretation von OR  Anordnung der Kategorien beachten! beide Werte von OR sind Kehrwerte voneinander

Heruntergeladen durch Fabian Bo ([email protected])

Einflussanalyse (Regression)  will Vorhersagen treffen + Einflussfaktoren bestimmen  Güte der Vorhersage / „Trefferquote“ wichtig!

Kriterium = soll vorhergesagt werden = abhängige Variable (AV)

Prädiktor = Variable, um vorherzusagen = unabhängige Variable (UV)

Vorgehensweise anhand des Beispiels:

Annahme des Mittelwertes, „wenn ich nichts weiß“ bzw. wenn Prädiktor unbekannt

Welchen Fehler mache ich damit (insgesamt)?

 gut als Schätzwert

 „gut sitzende“ Gerade in die Daten legen

Heruntergeladen durch Fabian Bo ([email protected])

 Vergleich zweier Varianzen (mit + ohne Prädiktor)

 grüner Balken = Verbesserung, nachdem Prädiktor bekannt

m = Steigung = Einflussstärke

x = Prädiktorvariable

t = Vorhersage für Prädiktor = 0

Bestimmtheitsmaß R²  Zu wie viel Prozent wird die Kriteriumsvariable durch die Variation der X-Werte linear erklärt?

 Anteil der Verbesserung (der Vorhersage)

Perfekte Korrelation (R² = 1)  alle Punkte auf der Geraden  100 % Fehlerverbesserung Schlimmster Fall (R² = 0)

 Vorhersage genauso gut, als wie wenn man Mittelwert des Prädiktor zur Vorhersage individueller Werte heranzieht  0 % Fehlerverbesserung

Heruntergeladen durch Fabian Bo ([email protected])

Regressionsanalyse in R

 Einflussstärke Estimate = Schätzwert der Steigung

Achsenabschnitt 

Beispiel:

Steigung der Geraden  pro Ehejahr mehr kommen im Schnitt 0,11 Seitensprünge dazu Bei 0 Ehejahren hat man 0,55 Seitensprünge (Intercept)

Multiple Regression  3. Eigenschaft der Regressionsanalyse: Wichtigkeit einzelner Prädiktoren feststellen  jeder Prädiktor hat ein Einflussgewicht (Regressionsgewicht)  jeweils bereinigt von den Werten der anderen Prädiktoren Vgl. Babies – Störche  Babies – Ländlichkeit und Störche (Störche in Prädiktor „Ländlichkeit“ enthalten)

Faustregeln zur Effektgröße: ab R² ≈ .02

kleiner Effekt

ab R² ≈ .13

mittelstarker Effekt

ab R² ≈ .26

großer Effekt

Heruntergeladen durch Fabian Bo ([email protected])

Explorative Datenanalyse Ziele: Aufdecken von Anomalien Daten überblicken Aufdecken von Mustern

(Ausreißer, Abweichungen von der Normalverteilung) (generelle Trends) (Gruppenunterschiede in den Trends z. B. durch Brushing / farbig markieren)

Diagrammtypen Histogramm  um die Häufigkeitsverteilung metrischer / kontinuierlicher Variablen darzustellen - Daten werden in Klassen eingeteilt und diese abgebildet (keine ideale Anzahl an Klassen) - für nicht-kontinuierliche Variablen  Balken-Diagramm

Hitzediagramm / Heatmap  Tabelle wird anhand eines „farbigen Schachbretts“ dargestellt, Werte der Zellen werden mit einer Farbe aus einem Farbverlauf dargestellt + guter Überblick über Verteilung der Daten - unübersichtlich bei großen Tabellen

Streudiagramm  stellt Wertepaare zweier metrischer Variablen dar - Abhängigkeiten (Korrelationen) zwischen Variablen gut erkennbar - „Glättungslinie“ zeigt den „rollenden Mittelwert“ und somit einen Trend + „ehrliche“ Darstellung der Abhängigkeit der beiden Variablen - Stärke der Abhängigkeit nicht mit bloßem Auge präzise messbar

- Facettierung = Diagramm nach Gruppen ausspalten - Farbe und Größe der Punkte  weitere Variablen

Heruntergeladen durch Fabian Bo ([email protected])

Streudiagramm-Matrix  Kombination mehrerer Streudiagramme, um die Zusammenhänge zwischen mehreren Variablen-Paaren zu visualisieren

Boxplot  prägnante Zusammenfassung einer Verteilung in fünf Werten (Median, 1. Und 3. Quartil, obere und untere Randwerte)  Median = zentrale Tendenz, IQR = Streuung, Antennen = Extrembereiche + prägnant, robust (Median, Interquartilsabstand) - Berechnung der „Antennen-Länge“ nicht intuitiv einleuchtend und teilweise unterschiedl. definiert

innere 50% Höhe (oder Breite) der Box  Streuung der Werte

Balkendiagramm  vergleicht einzelne Werte pro Gruppe + optisch gut erkennbar - informationsarm, Länge der Balken irreführend wenn die Null willkürlich ist (intervallskalierte Variablen)  Zusammensetzung ungefähr erkennbar

Heruntergeladen durch Fabian Bo ([email protected])

 Items innerhalb einer Kategorie gut vergleichbar z. B. Produkte in versch. Ländern

 Fokus auf einzelnen Items

Liniendiagramm  graphische Darstellung eines funktionellen Zusammenhangs zweier Merkmale in Linienform  Punkte auf Linie oft sinnvoll, gut geeignet für Zeitverläufe + komprimierte Darstellung vieler Einzelwerte möglich, informationsreich, Trendverläufe erkennbar - Linie suggeriert kontinuierlichen Verlauf, in Wirklichkeit können es aber disjunkte (zeitlich getrennte) Daten sein  y-Achse trunkiert = abgeschnitten

Inferenzstatistik  Ziel: von vorhandenen Daten / Stichproben auf Grundgesamtheit schließen Stichproben und Population (= Grundgesamtheit) Stichprobe = kleine Teilgruppe der Population Grundannahmen:  je größer die Stichprobe, umso wahrscheinlicher kommt die Stichproben-Statistik dem Populationswert nahe  Ziehungen müssen unabhängig voneinander (= Wahrscheinlichkeit einen best. Wert zu ziehen, hat keinen Einfluss darauf, welchen Wert ich als nächstes ziehe)  Zufälligkeit (jeder Wert der Population sollte dieselbe Wahrscheinlichkeit haben, gezogen zu werden) Der zentrale Grenzwertsatz  Verteilung der Mittelwerte von Stichproben nähert sich immer einer Normalverteilung an (unabhängig von der Verteilung in der Population) Beliebige Verteilung 

Normalverteilte Stichprobenmittelwerte 

Heruntergeladen durch Fabian Bo ([email protected])

Standardfehler (SE) = Streuung / Standardabweichung der Stichprobenmittelwerte Kleiner Standardfehler

 Mittelwerte der verschiedenen Stichproben variieren nur gering (nahe am Mittelwert der Population) Großer Standardfehler  Mittelwerte der verschiedenen Stichproben variieren stark (je größer der Standardfehler, desto ungenauer der Schluss auf den Populationswert) Bestimmt von zwei Faktoren: Standardabweichung der Population: Wenig Streuung in der Population  wenig Streuung in den Stichprobenmittelwerten Je größer Standardabweichung / Varianz in der Population  umso größer der Standardfehler Stichprobengröße je größer die Stichprobe  umso kleiner die Streuung der Stichprobenmittelwerte/der Standardfehler steigende Stichprobengröße  Mittelwert der Stichproben nähert sich dem wahren Mittelwert Kleine Stichprobe  große Streuung der Stichprobenmittelwerte Formel für Standardfehler (wenn sd der Population und n der Stichprobe gegeben)

Das „Nullhypothesen-Signifikanz-Testen“ - Hypothesen können nur falsifiziert werden  es wird die Gegen- bzw. Nullhypothese getestet - man hofft, die „nicht gewollte“ H ₀ zu verwerfen  damit wird indirekt die eigene Hypothese gestärkt (nicht verifiziert!) p-Wert

„ab dem kritischen Wert bin ich bereit, die Hypothese H₀ zu verwerfen“ i.d.R: 5% auf einer bzw. 2,5% je Seite 

 Der p-Wert ist die Wahrscheinlichkeit unserer (oder noch extremerer) Daten, wenn die H₀ gilt.

Heruntergeladen durch Fabian Bo ([email protected])

↓ ist die Wahrscheinlichkeit sehr klein bzw. sehr unwahrscheinlich, muss die H₀ falsch sein, i h f i

p-Wert ermitteln - z-Wert mit Formel ausrechnen - in R: pnorm(z-Wert)  Prozentrang - 100 - Prozentrang bzw. 1-pnorm(z-Wert) = p-Wert Einseitiges und zweiseitiges Testen Einseitiger Test prüft  gerichtete Hypothese Zweiseitiger Test prüft  ungerichtete H.

z. B. … sind schlauer als… z. B. Intelligenz v. A entspricht nicht der von B (ungleich)

Meistens:

3 Schritte des Hypothesentestens 1) Hypothese + Gegenhypot. aufstellen 2) Stichprobenverteilung erstellen (viele Stichproben ziehen mit best. Anzahl n) 3) Möglichkeitenraum der H₀  mein Ergebnis damit abgleichen  bin ich im Randbereich? H₀ verwerfen

Alpha- und Beta-Fehler Zwei mögliche Fehler beim (inferenzstatistischen) Testen: Fehlalarm / „Alpha-Fehler“  man meint fälschlicherweise, einen Effekt entdeckt zu haben Fehlender Alarm, Übersehfehler / „Beta-Fehler“  man entdeckt einen vorhandenen Effekt nicht Effekt = H₀ verwerfen können

Heruntergeladen durch Fabian Bo ([email protected])

Einflussgrößen des Beta-Fehlers: - Stichprobengröße: je größer die Stichprobe, umso „schmäler“ die Verteilung  Beta wird kleiner - Effektgröße: ist Effekt in Population relativ klein, besteht die Gefahr, ihn nicht zu entdecken Kalkulation von Vertrauensintervallen = Verfahren, um einen Populationsparameter zu schätzen Vertrauensintervall = Schätzbereich bei dem wir zu 1- α % davon ausgehen, dass der Populationsparameter enthalten ist Typischerweise: 95%  α = 0,05  „mit einer Wahrscheinlichkeit von 95% liegt der Mittelwert der Population in dem Intervall“ Berechnung der UG und OG des Konfidenzintervalls Untere Grenze:

- qnorm(α /2) x SE X = Mittelwert 1-α = Vertrauensintervall Obere Grenze:

+ qnorm(1-(α /2)) x SE Angabe: Das Konfidenzintervall erstreckt sich von …UG… bis …OG… Kritik am Signifikanzprinzip Je größer die Stichprobe  desto schneller kann ich verwerfen  desto kleiner ist der Standardfehler (Streuung der Stichprobenverteilung)

Heruntergeladen durch Fabian Bo ([email protected])

SE = Standardfehler

Typische Kennwerte eines Krebstest

90% Zuverlässigkeit  Wie viele der Kranken erwische / identifiziere ich?  p-Wert

1% Grundrate  Nur 9 von 108 haben tatsächlich Krebs

Wie viele der Kranken erwische / identifiziere ich? VS. wenn ich ein positives Ergebnis habe, zu welcher Wahrscheinlichkeit bin ich wirklich krank?

 wenn ich ein positives Ergebnis bekomme  Hypothesen-Wert

p(D|H)  Wahrscheinlichkeit der Daten WENN H₀ gilt = p-Wert p(H|D)  Wahrscheinlichkeit der Hypothese H₀ WENN die Daten vorliegen = Hypothesen-Wahrscheinl.keit

Heruntergeladen durch Fabian Bo ([email protected])

Unterschiede von Mittelwerten testen Die t-Verteilung Wenn Populationsvarianz unbekannt df = Stichprobengröße  muss aus Stichprobenvarianz geschätzt werden  t-Test notwendig = kleine Korrektur („Dickmacher“) beim Schätzen  geschätzte Streuung sonst etwas zu klein (große Stipro  nur wenig Korrektur nötig kleine Stipro  mehr Korrektur nötig) t-Verteilung = der Normalverteilung ähnlich, geht mit zunehmender Stichprobengröße in die Normalverteilung über t-Test  Verwendung bei kleinen, „geraden“ (im Sinne einer schönen Verteilung) Stichproben

Prüfgröße (der sog. t-Wert) ist analog zum z-Wert zu interpretieren In Außenbereichen: mehr Wahrscheinlichkeitsanteil bei der t-Verteilung  je größer die Stichprobe, umso geringer der Effekt

t-Test bei unabhängigen Stichproben z. B. Vergleich zweier Mittelwerte aus unabhängigen Stichproben Beispiel: Parken Frauen schneller ein als Männer?  t-Test soll prüfen, ob Unterschied statistisch signifikant  Nullhypothese, dass sich die Mittelwerte in der Population nicht unterscheiden, wird getestet  Überprüfung, ob die Differenz der Mittelwerte größer als ein kritischer Wert ist (meist α = 5%)

t-Wert wie z-Werte interpretieren 

↓p-Wert

 kritischer Wert z. B. t > 2 Wenn p-Wert größer 0,05  nicht signifikant!

Heruntergeladen durch Fabian Bo ([email protected])

Bedeutung:  Effekt nicht signifikant! H₀ beibehalten p-value  Wahrscheinlichkeit unserer Daten (Excel-Tabelle) beträgt ca. 77 % t-Wert  nahe an Null t-Test bei abhängigen Stichproben  i. d. R. Vorher-Nachher-Messung z. B. Veränderung von Personen

p < α  statistisch signifikant  führt zu Verwerfung der H₀, da Ergebnis unwahrscheinlich, wenn H₀ gilt Statistisch signifikant heißt, dass ein Stichprobenergebnis unwahrscheinlich unter einer getesteten Hypothese ist

Effektstärke beim t-Test

 „Überlappung“ der Kurven verdeutlicht Stärke des Effekts  Größe des Unterschieds (Überlappung) abhängig von: Mittelwerte (μ1 – μ2) und Streuung Ø(sd1, sd2) Cohens d  Effektgröße von Mittelwertsunterschieden zwischen zwei Gruppen  gibt an, um wie viele SD-Einheiten der Mittelwert der einen Gruppe größer ist als der Mittelwert der zweiten Gruppe Größe des Abstandes der Mittelwerte μ1 – μ2 (Reihenfolge egal)

Øsd (Streuung)

Heruntergeladen durch Fabian Bo ([email protected])

Varianzanalyse (ANOVA): Mittelwert bei mehr als 2 Gruppen testen  erweitert den t-Test, gleiches Ziel: Mittelwerte vergleichen, Unterschiede feststellen  zerlegt Gesamt-Varianz von zwei oder mehr Gruppen Unabhängige Variable (UV) = Gruppierungsvariable  kann 3+ Gruppen umfassen z. B. Schminkstatus Aufteilung der Streuung bei der Varianzanalyse Gesamt-Quadratsumme = Gesamt-Streuung (SS-T)  Streuung der abhängigen Variable  wie sehr unterscheiden sich die Messwerte über...