Unit 3 - Bivariate deskriptive Statistik Teil 1-4 PDF

Title Unit 3 - Bivariate deskriptive Statistik Teil 1-4
Course Statistik
Institution FernUniversität in Hagen
Pages 9
File Size 596.2 KB
File Type PDF
Total Downloads 25
Total Views 135

Summary

Download Unit 3 - Bivariate deskriptive Statistik Teil 1-4 PDF


Description

Statistik I: Bivariate deskriptive Statistik Einführung In der bivariaten Statistik werden zwei Variablen zusammen betrachtet. Zentrale Frage: Wie „verhält“ sich die eine Variable in Abhängigkeit von der anderen Variable? Mit der vikariaten deskriptiven Statistik kann diese Frage u.a. in Abhängigkeit der Variablentypen unterschiedlich beantwortet werden.

Korrelation - unverrichteter Zusammenhang Bedingte Kennwerte

- Jede univariate deskriptive Statistik einer Variable kann in Abhängigkeit von den Ausprägungen einer anderen berechnet werden.

- Die Variable, die die Bedingungen darstellt, muß diskret oder diskreditiert (kategorisiert) sein - Bedingte Kennwerte können offenlegen, ob bestimmte Ausprägungen in einer Variable -

(z.B. Geschlecht) mit bestimmten Ausprägungen einer anderen Variable (z.B. Motiv anderen zu helfen) einhergehen. Anders: Es kann ein Zusammenhang zwischen Variablen offengelegt werden!

Zusammenhangsmaße

- die Darstellung bzw. Betrachtung bedingter Kennwerte erlaubt eine grobe Einschätzung des Zusammenhangs

- eine exakte Bestimmung ist in der Regel aber nicht möglich -> Zusammenhangsmaße ≙ Korrelationskoeffizienten In Abhängigkeit von der Variableneigenschaften (Skalenniveau und diskret vs. kontinuierlich) gibt es verschiedene Zusammenhangsmaße.

Für die Produkt-Moment-Korrelation und die phi-Koeffizienten werden zusätzlich entsprechende Darstellungsarten vorgestellt: • Streudiagramm für intervallskalierte Variablen • Kontingenztafeln für nominalskalierte Variablen

Streudiagramme - die grafische Darstellung von Korrelationen liefert Überblick über den Zusammenhang zweier intervallskalierter Variablen • Darstellung in einem zweidimensionalen Koordinatensystem

- Form des Zusammenhangs ergibt sich aus dem Muster, dem die Datenpunkte mehr oder weniger folgen

- Richtung: positiv oder negativ siehe Punktwolke - Stärke: Perfekte Korrelation: 1; -1 / kein Zusammenhang: 0

Produkt-Moment 1. Berechnung der Differenz zwischen Messwert und Mittelwert für jede Person auf beiden Variablen und • also • bei hohen Werten ist die Differenz positiv, bei niedrigen Werten negativ 3. Berechnung der Summe der Kreuzprodukte (Produkt-Moment) Formel: Nachteil:

- abhängig von Stichprobengröße - maßstabsabhängig

Empirische Kovarianz

- Mittelwert des Kreuzprodukts

• positive Kovarianz: gleichgerichtete Tendenz (Größe; Gewicht) • negative Kovarianz: gegenläufige Tendenz (Depressivität; Lebenszufriedenheit) Nachteil:

- maßstabsabhängig

Produkt-Moment-Korrelationskoeffizient (r) Eigenschaften von r: - maßstabsunanhängig, dimensionslos - bestimmt nur den linearen Zusammenhang, d.h. wenn r=0, dann kann durchaus ein nichtlinearer Zusammenhang bestehen oder gar keiner… Wertebereich: -1 ≤ r ≤ 1

r=0 -> Unkorreliertheit beider Merkmale

Konventionen nach Cohen (1988) vollständiger Zusammenhang wenn r +1 oder -1 schwacher Zusammenhang ab ∣r∣ = 0,1 mäßiger Zusammenhang ab ∣r∣ = 0,3 starker Zusammenhang ab ∣r∣ = 0,5 Division der Kovarianz durch das Produkt der Standardabweichungen der beiden Variablen:

Die Produkt-Moment-Korrelation entspricht dem mittleren Kreuzprodukt der z-Werte!

Einflußfaktoren: • Ausreißerwerte • Einschränkungen der Variabilität • Zusammenfassung heterogener Stichproben Korrelation und Kausalität

- der Zusammenhang zwischen zwei Variablen impliziert nicht zwangsläufig, daß die eine Variable die andere beeinflusst

- eine Bedingung für einen Ursache-Wirkungs-Zusammenhang ist die Korrelation zwischen einer Variablen x und einen Variablen y

- aber die beobachtete Korrelation kann auf unterschiedlichen Wegen zustande kommen Partialkorrelation

- Berechnung der Korrelation zweier Variablen unter Ausschaltung des Einflusses einer Drittvariablen auf diesen Zusammenhang

- kann Scheinzusammenhänge (Scheinkorrelationen) aufdecken - die Variable z wird konstant gehalten: • sinkt der Zusammenhang zwischen x und y kann davon ausgegangenn werden, daß z als Ursache für den Zusammenhang zwischen X und Y in Frage kommt • kommt es zu keiner Veränderung, ist ausgeschlossen, dass Variable Z die Korrelation hervorruft

Phi-Koeffizient

- Zusammenhangsmaß für zwei nominalskalierte Variablen Voraussetzung: dichotome Kontingenztafel (2x2; 2 binäre Variablen)

Berechnung:

- der Phi-Koeffizient wird in der Regel nur positiv angegeben - die Stärke des Zusammenhangs wird bei phi durch die Rangverteilung eingeschränkt - Beurteilung des Phi-Koeffizienten mit Hilfe der Konventionen nach Cohen

Rangkorrelationen

- Zusammenhangsmaße für die Korrelation zwischen zwei mind. ordinalskalierten Variablen - werden verwendet, wenn: • tatsächlich nur Ordinalskalenniveau vorliegt • Zweifel über die Angemessenheit bspw. der Produkt-Moment-Korrelation besteht Kendalls- 𝛕

- Zusammenhangsmaß für zwei mindestens ordinalskalierte Merkmale 1. Bringe die Werte einer Variable in eine aufsteigende Rangreihe 2. Untersuche diejenige Variable, die nicht sortiert wurde Logik: Bei einem perfekten Zusammenhang sollten bei Paarvergleichen jeweils sie kleineren Werte links zu finden sein.

- Basis der Berechnung ist die Differenz aus Proversionen (P) und Inversionen (I). - Der Koeffizient ergibt such aus dem Verhältnis von S zur maximalen Anzahl der Proversionen.

Spearmans Rangkorrelation

- Zusammenhang zwischen mind. zwei ordinalskalierten Merkmalen Es wird gemessen, ob ein gegenläufiger oder gleichläufiger monotoner Zusammenhang besteht. Bei fehlendem Zusammenhang ist rSP = 0. 1. Werte in Ränge transformieren • bei Rangbindungen: Mittelwert der Ränge (verbundene Ränge) 2. Bilde die Differenzen der Ränge

Logik: Bei perfekter Korrelation sollten keine Differenzen auftreten. Größere Differenzen bedeuten kleinere Korrelation. Berechnung:

Allgemeines zu Rangkorrelationen: - Rangbindungen (gleiche Rangplätze) stellen allgemeines Problem dar. Vergleich der Rangkorrelationskoeffizienten: - Spearman führt in der Regel zu höheren Korrelationen. - Kendall ist dagegen robuster bei Rangbindungen

Weitere Zusammenhangsmaße (informativ)

Regression - gerichteter Zusammenhang

- Vorhersage der Werte einer Variablen durch die Werte einer anderen Variablen • gerichtet • Regression des Kriteriums auf den Prädiktor Prädiktor: üblicherweise x Variable, die aus inhaltlichen oder theoretischen Gründen als Grundlage der Vorhersage bestimmt wird Kriterium: üblicherweise y Variable, die durch den Prädiktor vorhergesagt wird Grundbegriffe der linearen Regression

- Berechnung von vorhergesagten Werten für das Kriterium auf Grundlage des Prädiktors -

• Anpassung einer vorher festgelegten mathematischen Funktion • lineare Regression - Anpassung einer linearen Funktion (Gerade) Lineare Funktion: y=bx+a • b - Steigung, slope -> wie verändert sich y, wenn sich x um 1 ändert • a - Achsenabschnitt, inercept -> y-Wert für x=0

Problem: Finde eine Geradengleichung, die eine „gute“ Vorhersage des Kriteriums leistet!

1. Regressionsgleichung

- in der Psychologie liegen üblicherweise stochastische Zusammenhänge vor - Regressionsgleichung: • byx, ayx - Regressionskoeffizienten • byx - auch Regressionsgewicht 2. Residuum (Vorhersagefehler)

- Differenz zwischen dem vorhergesagten Wert

und dem tatsächlichen Wert (yi) des Kriterium

bzw. -> der tatsächliche Wert ergibt sich aus der Summe des vorhergesagten Wertes & des Residuums Berechnung der linearen Regression Kriterium: - bei stochastischen, nicht perfekten Zusammenhängen gibt es keine offensichtliche Lösung für das Aufstellen einer Regressionsgeraden! - daher Suche nach derjenigen Geraden, die die Werte des Kriterium „am besten“ beschreibt. Lösung: - minimiere die Summe der quadrierten Residuen (Vorhersagefehler)! -> Kriterium der kleinsten Quadrate

- die Regressionsgerade ist diejenige, deren Koeffizienten (byx und ayx) nach dem Kriterium der kleinen Quadrate bestimmt wurde Rational der Herleitung:

- notwendige Bedingung: Nullstellen der 1. Ableitung partiell differenziert nach byx und ayx - hinreichende Bedingung: 2. Ableitung für die Nullstellen positiv Berechnung des Regressionskoeffizienten -> byx ergibt sich aus der Kovarianz von x und y geteilt durch die Varianz von x -> ayx ergibt sich durch Einsetzung der Mittelwerte (von x und y) und des Regressionsgewicht (byx) in der Regressionsgleichung Regressionsgewicht und Korrelation

- Regressionsgewicht byx steht in engem Zusammenhang zur Produkt-Moment-Korrelation! ->

->

->

- Regressionsgerade lässt sich leicht durch die Korrelation berechnen. - Regressionsgewicht byx lässt sich damit auf zwei Einflussgrößen reduzieren: 1. Produkt-Moment-Korrelation 2. Verhältnis der Standardabweichungen (Skalierung der Variablen) Wichtig: Beides ist für die Steigung der Gerade zu betrachten!

Besondere Aspekte der Regressionskoeffizienten 1. Kein Zusammenhang zwischen den Variablen (r=0) Regressionsgewicht ist unabhängig von der „Skalierung“ immer Null. Intercept entspricht dem Mittelwert des Kriterium -> Hat man keine Informationen über eine Variable, dann ist der Mittelwert der beste Schätzer. 2.

z-Standardisierung zum Vergleich verschiedener Populationen

- Effekt der z-Standardisierung: MW=0, SD=1 Standardisiertes Regressionsgewicht (beta) entspricht der Korrelation Die Regressionsgerade geht durch den Ursprung. 3.

Vertauschung von Prädiktor und Kriterium Regressionsgerade ändert sich in der Abhängigkeit der Verschiedenheit der Skalierung, bzw. Varianz der Variablen.

-> Das bedeutet, daß nur bei gleichen Standardabweichungen (z.B. durch z-Standardisierung) die Regressionsgeraden identisch sind. Der Regressionseffekt („Regression zur Mitte“)

- liegt dann vor, wenn extreme Pretestwerte die Tendenz aufweisen, sich bei einer wiederholten Messung zur Mitte der Merkmalsverteilung hin (Punkt der höchsten Dichte einer Verteilung) zu verändern. Dies ist durch statistische Artefakte, durch eine mangelnde Reliabilität der Meßinstrumente erklärbar; d.h., die extremen Meßwerte sind durch Meßfehler verursacht. (Quelle: http://www.spektrum.de/lexikon/psychologie/regressionseffekt/12690) Die Kenntniss diese Effekts ist deshalb wichtig, um Planungsfehler bei der Stichprobenauswahl bzw. -zusammensetzung in psychologischen Experimenten zu vermeiden. Eigenschaften der Regressionsgeraden

Güte der Vorhersage

- stochastische Zusammenhänge erlauben keine perfekte Vorhersage, es gibt immer Residuen (Vorhersagefehler)

- hohe Güte der Vorhersage wird erreicht durch Varianzzerlegung • Zerlegung der Gesamtvarianz des Kriterium in vorhergesagte und nicht vorhergesagte Anteile Varianzzerlegung

- Aufklärung bzw. Vorhersage ist nie vollständig! - Abweichung der Messwerte des Kriteriums zu ihrem Mittelwert lässt sich in die vorhergesagte Abweichung und das Residuum zerlegen.

- Je besser die Vorhersage (je höher der Zusammenhang), desto: • kleiner werden die Residuen • größer werden die vorhergesagten Abweichungen Vorschlag zu Bestimmung der Güte: Bestimme die vorhergesagten und residualen Anteile der Gesamtabweichung über die jeweilige Aufsummierung der vorhergesagten Abweichung und der Residuen. Altbekanntes Problem: Die Summen ergeben Null. Altbekannte Lösung: Erst Quadrieren, dann Aufsummieren (vgl. Varianz)! Regressionsvarianz - Varianz der vorhergesagten Werte um den Mittelwert des Kriteriums. („aufgeklärte“ Varianz oder „gemeinsame“ Varianz) Fehlervarianz - Varianz der tatsächlichen Werte des Kriteriums (yi) um die Regressionsgerade . („nicht-aufgeklärte“ Varianz) Es gilt: Die Gesamtvarianz ergibt sich aus der Summe der Regressions- und der Fehlervarianz!!

=> Maß für die Güte der Regression: Anteil der Regressionsvarianz an der Gesamtvarianz, bzw. der Anteil der „aufgeklärten“ Varianz. Determinationskoeffizient r² Anteil der vorhergesagten bzw. „aufgeklärten“ Varianz (Regressionsvarianz) an der Gesamtvarianz Je größer, desto mehr der Gesamtvarianz wird durch die Regression vorhergesagt. Im Falle der einfachen linearen Regression mit nur einem Prädiktor (vgl. Multiple Regression) kann die Produkt-Moment-Korrelation zur Berechnung verwendet werden.

Standardschätzfehler

- Standardschätzfehler gibt an, wie stark die tatsächlichen Werte um die vorhergesagten Werte streuen.

- je kleiner der Standardschätzfehler ist, desto genauer ist die Vorhersage. - je größer der Standschätzfehler, desto größer ist auch das Vertrauensintervall. - berechnet wird der Standardschätzfehler indem man die Wurzel aus der Fehlervarianz zieht. =>

Probleme und Verzerrungen in der Regressionsrechnung

- Regressionskoeffizienten hängen maßgeblich von der Korrelation ab -

• Probleme und Verzerrungen, die die Korrelation betreffen, wirken sich genauso auf die Regressionsrechnung aus. linearer Zusammenhang? eingeschränkte Validität heterogene Untergruppen Kausalität

Exkurs: Multiple Regression

- Erweiterung des „einfachen“ Ansatzes, in der mehrere Prädiktoren genutzt werden, um ein Kriterium vorherzusagen

- für jeden Prädiktor wird ein Regressionsgewicht b bestimmt - Regressionsgleichung gibt an, wie alle Prädiktoren verrechnet werden müssen, um zu einer optimalen Vorhersage des Kriterium zu gelangen

Multiple Regression mit z-standardisierten Variablen

- dabei bezeichnen 𝛽1, 𝛽2, …, 𝛽m standardisierte Regressionsgewichte, kurz 𝛽-Gewichte Gütemaße 1. multipler Korrelationskoeffizient (R) • Korrelation zwischen vorhergesagten und tatsächlichen y-Werten • Maß für den Zusammenhang des Kriteriums mit allen berücksichtigten Prädiktoren

2. multipler Determinationskoeffizient (R²) • welcher Anteil der Varianz des Kriteriums kann durch alle Prädiktoren aufgeklärt werden

3. Standardschätzfehler • wie bei linear: gibt an, wie stark die tatsächlichen Werte um die vorhergesagten Werte streuen...


Similar Free PDFs