Überblick Stichproben PDF

Title Überblick Stichproben
Author foruzandeh samangan
Course Forschungsmethoden
Institution Johannes Gutenberg-Universität Mainz
Pages 8
File Size 419.4 KB
File Type PDF
Total Downloads 60
Total Views 148

Summary

Allgemeine Zusammenfassung, nur eine grobe Übersicht. Keine Garantie....


Description

Überblick Stichproben Welche Arten von Stichproben gibt es? Um welche Stichprobe es sich handelt, hängt davon ab, wie sie bestimmt wurde. Generell unterscheiden wir zufällige (= probabilistische) und systematische (= nicht-probabilistische) Stichproben. Was ist der Unterschied zwischen N und n? Wir benutzen den Großbuchstaben N für die Gesamtanzahl der Grundgesamtheit und den Kleinbuchstaben n für die Größe der Stichprobe. Was ist eine repräsentative Stichprobe? Eine repräsentative Stichprobe erlaubt es, basierend auf den Ergebnissen der Stichprobe Aussagen über die zugrundeliegende Grundgesamtheit zu treffen. Probabilistische Stichprobe =sind zufällig aus der Grundgesamtheit gezogene Stichproben und lassen somit zu, die Ergebnisse aus der Stichprobe auf die Grundgesamtheit zu generalisieren =um möglichst präzise Schlüsse zu ziehen, ist es wichtig, eine repräsentative Stichprobe zu wählen bedeutet, dass die Merkmale der Grundgesamtheit möglichst gut in der Stichprobe abgebildet sind =wir unterscheiden zwischen geschichteten, ein- oder mehrstufigen und Klumpenstichproben. Einfache Zufallsstichprobe Eine Teilmenge wird zufällig aus einer Grundgesamtheit ausgewählt. Jedes Element und jede Teilmenge von gleicher Größe haben die gleiche Wahrscheinlichkeit in die Stichprobe zu gelangen.

  

Ziehung der Lottozahlen 100 zufällig ausgewählte Studierende in Deutschland Kugeln aus einer Urne ziehen

Mehrstufige Zufallsstichprobe Ist eine Zufallsstichprobe mehrstufig, dann wird aus der ersten Zufallsstichprobe erneut eine zufällige Stichprobe gezogen. Die neue Zufallsstichprobe kann wiederum Grundlage für die nächste Stichprobenziehung sein.

 

Stufe: zufällige Auswahl unter den 16 Bundesländern Stufe: zufällige Auswahl an Städten in den Bundesländern aus Stufe 1

Geschichtete Zufallsstichprobe Bei der geschichteten Zufallsstichprobe werden vorab Merkmale definiert (=Schichten gebildet) und dann Merkmalsträger zufällig aus den verschiedenen Schichten gezogen.



Zufällige Auswahl von 100 Menschen in jedem europäischen Land (In dem Fall sind die Länder die Schichten aus denen die Stichprobe gezogen wird)

Klumpenstichprobe Die Bestimmung der Klumpen- oder auch Clusterstichprobe erfolgt ähnlich zur einfachen Stichprobe, allerdings sind es bei der Klumpenstichprobe nicht einzelne Merkmalsträger, sondern vorbestimmte Gruppen, die zufällig ausgewählt werden. Die Gruppen (=Klumpen) werden dann vollständig untersucht. Schulklassen werden zufällig ausgewählt und dann alle Kinder in den ausgewählten Klassen untersucht

Nicht-probabilistische Stichproben Auswahlverfahren Da die nicht-probabilistischen Stichproben nicht repräsentativ sind, können wir keine Rückschlüsse von der Stichprobe auf die Grundgesamtheit ziehen. Daher wird diese Art der Stichprobenziehung meist für explorative Analysen verwendet. Quotenstichprobe Theoretische Stichprobe Ad-hoc Stichprobe Die Stichprobe basiert auf theoretischen Bei der Ad-hoc Stichprobe wird eine bereits Bei der Quotenstichprobe ist die Erkenntnissen. Bei der Auswahl werden bestehende Gruppe als Stichprobe verwendet und Zusammensetzung der Stichprobe dadurch untersucht. bestimmt, dass ein oder mehrere Merkmale in der beispielsweise besonders typische, untypische oder extreme Merkmalsträger ausgewählt. Stichprobe eine bestimmte Quote erfüllen müssen. Dies ist dabei wichtiger als die Zufallsauswahl der Stichprobe.  eine Stichprobe bestehend aus 50% Männern und 50% Frauen  25% der Stichprobe müssen unter 18 Jahre alt sein



die Stichprobe besteht nur aus Leistungssportlern oder nur aus Menschen mit einer Körpergröße von über 2 m

 

Personen, die sich gerade in einem Zugabteil befinden Teilnehmer einer Veranstaltung

Beachte: Wie sehr der Mittelwert einer Stichprobe vom tatsächlichen Mittelwert in der Grundgesamtheit abweicht, können wir anhand des Standardfehlers des Mittelwertes bestimmen. Signifikanzniveau Bei einer statistischen Auswertung testest du Hypothesen, also Annahmen über eine Grundgesamtheit auf ihre Gültigkeit. Da du nicht sämtliche Individuen einer Grundgesamtheit befragen kannst, musst du eine Stichprobe aus der Grundgesamtheit ziehen. Du wählst also eine möglichst hohe Zahl an Personen aus der Grundgesamtheit aus, die das Merkmal aufweisen, das dich interessiert. Beispiel: Du möchtest Annahmen über den Erhalt eines Stipendiums während des Studiums und der Studiendauer von Studierenden treffen. Grundgesamtheit Studierende aller Hochschulen mit und ohne Stipendium Stichprobe Studierende einer Hochschule, die ein Stipendium erhalten, und Studierende derselben Hochschule, die kein Stipendium erhalten.

Hypothesen: In der Statistik wird die Hypothese, die du mittels Tests überprüfen möchtest, als Alternativhypothese (H1) bezeichnet. Die Verneinung der Annahme deiner Alternativhypothese wird Nullhypothese (H0) genannt. Du möchtest herausfinden, ob die Alternativhypothese oder die Nullhypothese richtig ist. Alternativhypothese (H1) Die Studiendauer von Studierenden, die ein Stipendium erhalten, ist kürzer als von Studierenden, die kein Stipendium erhalten. Nullhypothese (H0) Die Studiendauer von Studierenden, die ein Stipendium erhalten, unterscheidet sich nicht von der Studiendauer von Studierenden, die kein Stipendium erhalten. Alpha-Fehler Da die Stichprobe natürlich nur ein Ausschnitt der Grundgesamtheit ist, kann es beim Testen der Hypothesen zu Fehlern kommen. In diesem Zusammenhang ist der Alpha-Fehler (?-Fehler) entscheidend. Wenn deine Ergebnisse deiner Stichprobe die Alternativhypothese bestätigen, aber in der Grundgesamtheit die Nullhypothese gilt, dann begehst du einen Alpha-Fehler. Beispiel Alpha-Fehler Bei deiner statistischen Untersuchung bestätigt sich deine Alternativhypothese (H1):  Die Studiendauer von Studierenden, die ein Stipendium erhalten, ist kürzer als von Studierenden, die kein Stipendium erhalten. Würdest du aber alle Studierenden von jeder Hochschule mit und ohne Stipendium untersuchen, zeigt sich, dass kein Unterschied zwischen dem Erhalt eines Stipendiums und der Studiendauer besteht. Du hast also deine Hypothese fälschlicherweise bestätigt und einen Alpha-Fehler begangen. Signifikanzniveau einsetzen Nun kommt das Signifikanzniveau ins Spiel. Denn der Alpha-Fehler wird in Form eines Wahrscheinlichkeitswertes angegeben. Dieser Wahrscheinlichkeitswert ist die Irrtumswahrscheinlichkeit, also das Signifikanzniveau (α-Niveau). Das Signifikanzniveau gibt die Wahrscheinlichkeit dafür an, dass die Nullhypothese verworfen wird, obwohl sie richtig ist (Alpha-Fehler). Du entscheidest dich daher irrtümlich für die Alternativhypothese. Um das Risiko für das Auftreten dieses Fehlers möglichst gering zu halten, solltest du ein niedriges Signifikanzniveau wählen. = am häufigsten wird bei statistischen Tests als Signifikanzniveau ein Wert von 0,05 oder 0,01 festgelegt Bei einem Signifikanzniveau von 0,05 besteht ein Risiko von 5% Risiko, dass fälschlicherweise der Schluss gezogen wird, dass ein Unterschied zwischen der Nullhypothese und den Studienergebnissen vorliegt. Du vergleichst die Fehlerwahrscheinlichkeit ?, mit deinem festgelegten Signifikanzniveau von 5%. Liegt deine Fehlerwahrscheinlichkeit ? unter dem Signifikanzniveau von 5% dann ist dein Ergebnis mit einer Wahrscheinlichkeit von 95% signifikant.  Bei α < 0,05 spricht man in der Statistik von einem signifikanten Ergebnis.  Bei α < 0,01 bezeichnet man das Ergebnis als sehr signifikant. Beispiel Signifikanzniveau

Du wählst für die Überprüfung deiner Alternativhypothese einen statistischen Test (wie z. B. Chi-Quadrat oder t-Test) und legst das Signifikanzniveau mit 0,05, also 5%, fest. Bei deinem Test erhältst du für die Fehlerwahrscheinlichkeit einen Wert von 0,03. Dein Ergebnis von 0,03 ist signifikant, da dein Wert unter dem Signifikanzniveau von 0,05 liegt, aber über dem Signifikanzniveau von 0,01. Deine Alternativhypothese hat sich aufgrund deines statistischen Tests also bestätigt. In deiner Bachelorarbeit bzw. Masterarbeit kannst du schreiben Die Studiendauer von Studierenden, die ein Stipendium erhalten, ist kürzer als von Studierenden, die kein Stipendium erhalten. Bei einem festgelegten Signifikanzniveau von 0,05 ist dieses Ergebnis mit einer Fehlerwahrscheinlichkeit von 0,03 signifikant. Annahmen für statistische Tests Annahme 1: Lineare Beziehung zwischen Variablen Annahme 2: Zufallsstichprobe Annahme 3: Keine Multikollinearität Annahme 4: Exogenität Annahme 5: Homoskedastizität Annahme 1: Lineare Beziehung zwischen Variablen Wenn du eine lineare Regression durchführst, ist es wichtig, dass die Beziehung zwischen der erklärenden und der abhängigen Variable linear ist. = bedeutet, dass der Einfluss der erklärenden Variable sowohl für niedrige als auch für hohe Werte derselbe sein muss Beispiele Die erklärende Variable „Größe“ beeinflusst die abhängige Variable „Gewicht“. Eine lineare Beziehung bedeutet, dass das Gewicht für die Werte zwischen 150 cm bis 160 cm genauso steigt wie für die Werte 180 cm bis 190 cm. Lineare Beziehung überprüfen Um zu testen, ob sich 2 Variablen linear aufeinander beziehen, erstellst du ein Streudiagramm. Wenn du zwischen den Datenpunkten eine beinahe gerade Linie ziehen kannst, besteht ein linearer Zusammenhang. Um in SPSS ein Streudiagramm zu erstellen, klicke auf: Grafik  Diagrammerstellung  Streu-/Punktdiagramm Vorgehensweise bei nicht bestätigter linearer Beziehung =es existiert keine lineare Beziehung zwischen den Variablen  Quadrat oder den Logarithmus einer Variable in die Regression einbeziehen, indem die Variable transformiert wird =Vorteil davon ist, dass der Effekt der erklärenden Variable auf die abhängige Variable besser geschätzt werden kann. Die Interpretation der Regressionskoeffizienten wird dadurch aber etwas schwieriger.

Annahme 2: Zufallsstichprobe

=um die Resultate der Stichprobe für die Grundgesamtheit generalisieren muss die Stichprobe zufällig ausgewählt sein und dieselben Eigenschaften wie die Grundgesamtheit aufweisen Beispiele Du möchtest Aussagen über die Größe eines durchschnittlichen Deutschen machen. Wenn deine Stichprobe nur aus Basketballspielern besteht, wird dies zu einem falschen Eindruck führen. Unabhängige Beobachtungen =Personen müssen zufällig gewählt werden, aber auch unabhängig voneinander sein (=eine Beobachtung nicht eine weitere beeinflussen darf) Beispiele Die von dir Befragten sind miteinander verwandt. In Bezug auf ihre Größe sind sie also nicht unabhängig voneinander. Anders als die anderen Annahmen in diesem Artikel kann die Voraussetzung der Zufallsstichprobe nicht getestet werden. Stattdessen musst du kritisch hinterfragen, wie du deine Stichprobe ausgewählt hast. Annahme 3: Keine Multikollinearität =starke lineare Beziehung zwischen den erklärenden Variablen (Multikollinearität) =kann dazu führen, dass Regressionskoeffizienten im Regressionsmodell unzureichend geschätzt werden  Denn die erklärenden Variablen sagen einander voraus, und dadurch kann keine zusätzliche Varianz in deinem Regressionsmodell erklärt werden Beispiele Du fügst sowohl Größe in Zentimetern als auch Größe in Zoll als erklärende Variablen deiner Regressionsgleichung hinzu. Diese beiden Variablen sagen einander vorher, da Größe in Zoll 2.54 mal die Länge in Zentimeter beträgt und daher perfekt linear korreliert. Doch zwei Regressionskoeffizienten lassen sich so nicht berechnen. Ebenso wenig kannst du eine Kombination aus verschiedenen Variablen verwenden, die sich aufeinander beziehen. Beispiele Du fügst die Noten für die finalen Prüfungen und die Schulprüfungen sowie die finalen Noten beim Abschluss des Gymnasiums als erklärende Variablen deinem Regressionsmodell hinzu. Da die finalen Noten der Durchschnitt der beiden anderen Variablen sind, erhältst du keine zuverlässigen Ergebnisse. Auf Multikollinearität in SPSS testen Wenn du eine Regressionsanalyse in SPSS durchführst, kannst du unter Statistiken – Kollinearitätsdiagnose auswählen. VIF (engl. Variance Inflation Factor) wird in der SPSS-Ausgabe unter Koeffizienten – Kollinearitätsstatistik angezeigt Als Faustregel gilt, dass ab einem VIF-Wert von 5 ein Problem im Zusammenhang mit dem Abschätzen des Regressionskoeffizienten der relevanten Variable besteht.Der VIF-Wert ist nur für die erklärenden Variablen in deinem Modell wichtig. Ein hoher VIF-Wert für die Kontrollvariablen ist kein Problem. Vorgehensweise bei Multikollinearität Wenn Multikollinearität besteht, ist es sinnvoll, die korrelierenden Variablen in einem übergeordneten Konzept zu kombinieren. Du kannst dafür Cronbach’s Alpha verwenden oder eine Faktorenanalyse durchführen.

Annahme 4: Exogenität

=bedeutet, dass die abhängige Variable von der erklärenden Variable und der Störgröße abhängt. =Gegenteil zu Exogenität ist Endogenität, die vermieden werden muss, wenn du Aussagen über den Effekt der Variable A auf die Variable B (Kausalität) machen möchtest Der Effekt der erklärenden Variable auf deine abhängige Variable wird mit dem Regressionskoeffizienten geschätzt. Im Fall von Endogenität lässt sich der Regressionskoeffizient nicht korrekt schätzen. Ursachen für Endogenität Es gibt 3 Ursachen für Endogenität: 1. Fehlende (engl. omitted) Variable Es gibt eine weitere (fehlende) Variable, die mit der erklärenden Variable korreliert, und das beeinflusst auch die abhängige Variable. Das kann gelöst werden, indem diese fehlende Variable in die Regressionsgleichung integriert wird. Beispiele Angenommen, du möchtest den Stundenlohn von Angestellten in einem Unternehmen anhand ihres Bildungsabschlusses vorhersagen. Du nimmst an, ein höherer Bildungsabschluss führe zu einem höheren Stundenlohn. Da aber noch andere Faktoren den Stundenlohn der Angestellten beeinflussen, wird der geschätzte Regressionskoeffizient höher sein als der eigentliche Regressionskoeffizient. Erst, wenn du mögliche fehlende Variablen (wie z. B. das Alter und die Anstellungsdauer der Mitarbeitenden) in dein Regressionsmodell integrierst, erhältst du eine zuverlässige Abschätzung des Stundenlohns. 2. Umgekehrte Kausalität Wenn die abhängige Variable auch die erklärende Variable beeinflusst, dann besteht eine umgekehrte Kausalität. Beispiele Angenommen, du möchtest Kriminalität mit dem Aufgebot von Polizeikräften erklären, dann gibt es eindeutig eine umgekehrte Kausalität, denn mehr Kriminalität führt zu einem höheren Polizeiaufgebot. 3. Messfehler in der erklärenden Variable Wenn die erklärende Variable nicht reliabel gemessen wurde, dann ist der Regressionskoeffizient geschätzt näher an 0, als er es tatsächlich ist. Es ist daher wichtig, dass du zuverlässige Daten verwendest. Vorgehensweise bei Endogenität Am besten kannst du Endogenität vermeiden, indem du experimentelle Forschung durchführst, in der du die erklärende Variable selbst manipulieren kannst. Auf Grundlage deiner Daten kannst du nicht sagen, ob womöglich Endogenität besteht. Du kannst allerdings einen kritischen Blick auf dein konzeptuelles Modell werfen.

Annahme 5: Homoskedastizität

Die Regressionsgerade verbindet Datenpunkte. Da nicht alle Datenpunkte auf einer Geraden liegen, werden ihre Abweichungen von der Geraden als Störgrößen oder Residuen bezeichnet. =Wenn diese Störgrößen alle dieselbe Varianz aufweisen, spricht man von Homoskedastizität oder Varianzhomogenität. 

Fehlt diesen Störgrößen dieselbe Varianz, wird eine Regressionsanalyse keine brauchbaren Ergebnisse bringen (= Heteroskedastizität)

Wenn du einen t-Test oder eine ANOVA durchführst, dann analysierst du die Varianz zwischen mehreren Gruppen. Das Resultat kannst du mit dem Levene’s Test überprüfen. Heteroskedastizität in der Regression mit SPSS überprüfen 1. Streudiagramm erstellen, um zu sehen, ob die Varianz der Störgröße gleich ist. 2. In SPSS klickst du auf Speichern, wenn du eine Regression durchführst und markierst Nicht standardisiert unter dem Feld Vorhergesagte Werte und unter dem Feld Residuen. 3. Das erzeugt zwei neue Variablen, den vorhergesagten Wert und das Residuum. In einem Streudiagramm überträgst du die Variable für das Residuum auf die Y-Achse und die Variable für den vorhergesagten Wert auf die X-Achse. Die Streudiagramme unten zeigen, dass die Beobachtungen ungefähr dieselbe Distanz zur Regressionslinie für jeden Wert von Größe aufweisen. Es besteht daher keine Heteroskedastizität.

Vorgehensweise bei Heteroskedastizität Wenn Heteroskedastizität besteht, hast du verschiedene Optionen diese zu verhindern. Variablen transformieren Es ist möglich, dass eine Transformation der Variablen die Heteroskedastizität verschwinden lässt. Heteroskedastizität kann vorkommen, wenn lineare Beziehungen zwischen den erklärenden und abhängigen Variablen nicht bestehen. Dann ist die erklärende Variable zu transformieren, um eine lineare Beziehung herzustellen, in der sich die Störgröße nicht für höhere oder niedrigere Werte der erklärenden Variable verändert. Eine andere Regressionsanalyse verwenden außer der linearen Regressionsanalyse lässt sich auch eine gewichtete oder generalisierte Regression verwenden. Diese Formen der Regressionsanalysen verlangen keine Homoskedastizität. Eine logistische Regression lässt sich verwenden, wenn eine Variable nicht intervall- oder ratioskaliert ist. Beispiele Eine Prüfung bestehen oder durchfallen....


Similar Free PDFs