ZF Kapitel 19 - Buch \"Forschungsmethoden und Statistik, Beltz Verlag\" PDF

Title ZF Kapitel 19 - Buch \"Forschungsmethoden und Statistik, Beltz Verlag\"
Author Alexander Rauch
Course Methoden V: Forschungsmethoden und Statistik III III:
Institution Universitären Fernstudien Schweiz
Pages 19
File Size 1.1 MB
File Type PDF
Total Downloads 71
Total Views 158

Summary

Zusammenfassung Buchkapitel 19...


Description

Fernuni – Modul 13; Forschungsmethoden und Statistik III

19.1: Zielsetzungen der multiplen Regressionsanalyse i.

Berücksichtigung von Redundanzen und Kontrolle von Störvariablen Es werden mehrere unabhängige Variablen berücksichtig (Untersuchung der Multideterminiertheit von Verhalten). Berücksichtigt korrelierte Prädiktoren (können redundante Informationen anzeigen oder, dass eine Drittvariable die regressive Beziehung der beiden Variablen beeinflusst); multiple Regression: soll solche Redundanzen erkennen/eliminieren. Beschreibt einen gerichteten Zusammenhang.

ii.

Prognose und Erklärung: i.) Beschreiben vs. Erklären von Abhängigkeit; ii.) Bedingungen für Kausalität Multiple Regression ermöglicht, ein Kriterium (abhängige Variable) anhand mehrerer Prädiktoren (unabhängige Variablen) vorherzusagen (Prognose). Prognose setzt nicht voraus, dass Prädiktoren auch die Ursachen der zukünftigen Merkmalsausprägungen sind: beschreibt lediglich die regressive Abhängigkeit zwischen Kriterium und Prädiktoren. Bedingungen für Kausalität: a.) Prädiktoren müssen Kriterium zeitlich vorgeordnet sein; b.) Regressiver Zusammenhang darf nicht auf andere Erklärungsmöglichkeiten zurückführbar sein (z.B. darf sich Einfluss eines Prädiktors auf ein Kriterium nicht ändern, wenn zusätzliche Prädiktoren ins Modell aufgenommen werden.

iii.

Analyse komplexer Zusammenhänge Abhängigkeit zwischen Kriterium und Prädiktor(en) muss nicht linear sein (kurvenförmige Abhängigkeit(en) möglich). Einfluss eines Prädiktors auf Kriterium kann zwischen Personen interindividuell variieren (z.B. durch Moderatorvariable). Kriterium muss metrischer Natur sein, Prädiktoren können auch kategorial (dichotom) sein.

19.2: Notation i.

Regressionsgleichung für Merkmalsträger

ym

Werte des Kriteriums (abhängige Variable); für jeden Merkmalsträger m

xmj k verschiedene Prädiktoren (unabhängige Variablen) mit k = 1…j und m verschiedene Merkmalsträger mit m = 1...n em

Residualwert von Merkmalsträger m

b0

Achsenabschnitt (intercept)

bj

Regressionsgewichte mit j = 1…k

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

ii.

Regressionsgleichung für Variablen

s. Buch, Seite 631.

iii.

Y

Kriterium (abhängige Variable)

Xj

Prädiktor (unabhängige Variable) mit j = 1…k

E

Residualvariable

Regressionsgleichung für vorhergesagte Werte

s. Buch, Seite 631. ŷm

vorhergesagter Wert des Merkmalsträgers m

19.3: Lineare Regression für zwei metrische unabhängige Variablen i.

Multiple Regression als kompensatorisches Modell Ein beobachteter y-Wert lässt sich additiv zerlegen in b0 (Regressionskonstante, intercept), den mit b1 gewichteten Wert xm1, den mit b2 gewichteten Wert xm2 und den Residualwert em:

Da sich Individuen in X1 und X2 unterscheiden, kann derselbe ŷ-Wert durch unterschiedliche X1/X2-Kombinationen zustande kommen (multiple Regression als kompensatorisches Modell).

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III ii.

Grafische Darstellung Pfadanalytische Darstellung:

Achtung Der Pfeil von E auf Y erhält keine Zahl: die Residualvariable ist mit keinem Regressionskoeffizienten verknüpft und hat somit immer das Gewicht 1. Der Bogen zwischen X1 und X2 beschreibt einen ungerichteten Zusammenhang und somit die Kovarianz (s) bzw. Korrelation (r) zwischen den beiden Prädiktoren. Der intercept trägt nichts zur Erklärung der interindividuellen Unterschiede in der Kriteriumsvariable bei und wird somit nicht dargestellt. Ein Kästchen steht für eine Variable (abhängig oder unabhängig). Zahl unterhalb der Kästchen: Varianz der Variable. Die Zahlen beiden Pfeilen sind die Regressionsgewichte b1 und b2 für X1 bzw. X2.

iii.

Bestimmung der Regressionskoeffizienten Bestimmung durch SAQ (Summe der Abweichungsquadrate):

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

iv.

Regressionsebene Multiple Regression mit 2 Prädiktoren lässt sich als Regressionsebene darstellen:

Regressionsgewichte bei der einfachen und der multiplen Regression Die Regressionsgewichte bei der multiplen Regressionsanalyse sind nur dann mit den entsprechenden Regressionsgewichten der einfachen Regressionsanalyse identisch, wenn die unabhängigen Variablen untereinander unkorreliert sind. Bei korrelierten unabhängigen Variablen muss diese Korrelation bei der Berechnung der Regressionsgewichte berücksichtigt werden. Bei der Bestimmung der Regressionsgewichte ist es wichtig, sowohl die Zusammenhänge zwischen den unabhängigen Variablen untereinander als auch die Zusammenhänge zwischen den unabhängigen Variablen und der abhängigen Variablen zu berücksichtigen um das Kriterium nicht zu verschätzen.

v.

Bestimmung der Regressionsgewichte (bj) Bestimmung von b1

b1s ist das standardisierte Regressionsgewicht (Variablen zuerst z-transformieren).

Bestimmung von b2 erfolgt analog zu b1

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

Je nach den Korrelationen der Variablen untereinander kann sich das Regressionsgewicht einer unabhängigen Variablen in einer multiplen Regressionsanalyse deutlich vom Regressionsgewicht dieser Variablen in einer einfachen Regressionsanalyse unterscheiden.

Folgende Fälle können unterschieden werden: a.) beinf = bmult Nur dann der Fall, wenn alle Prädiktorvariablen untereinander unkorreliert sind. b.) beinf > bmult Das Regressionsgewicht der Variablen X1 in der multiplen Regression ist kleiner als ihr Regressionsgewicht in der einfachen Regression, wenn:

Wenn beide Variablen zu 1 korrelieren würden, dann läge eine so genannte exakte Kollinearität zwischen X1 und X2 vor.

c.) beinf < bmult Das Regressionsgewicht der Variablen X1 in der multiplen Regression ist grösser als das entsprechende Regressionsgewicht in der einfachen Regression, wenn:

Die Ungleichung ist dann erfüllt, wenn X2 mit der Kriteriumsvariablen unkorreliert ist und beide unabhängigen Variablen positiv korrelieren.

vi.

Bestimmung des Achsenabschnitts b0 Die Regressionskonstante b0 (intercept) wird auf Grundlage der Mittelwerte und der Regressionsgewichte bestimmt:

19.4: Bedeutung der Regressionsgewichte

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III i.

Multiple Regressionsgewichte als Regressionsgewichte bedingter einfacher Regressionen Bedingte einfache Regression: Ausprägung aller anderen Variablen konstant halten. Das Regressionsgewicht eines Prädiktors Xj gibt somit an, inwieweit die Variation im Kriterium Y auf diesen Prädiktor zurückzuführen ist unter der Bedingung, dass alle anderen Prädiktorvariablen konstant gehalten werden. Daher kann man multiple Regressionsgewichte auch als bedingte einfache Regressionsgewichte verstehen.

ii.

Multiple Regressionsgewichte als Regressionsgewichte von Regressionsresiduen Das Regressionsgewicht b kennzeichnet also den Teil des Einflusses der unabhängigen Variablen X1 auf die abhängige Variable Y, der nicht bereits durch X2 erklärt wird. Das Regressionsgewicht b ist also ein Maß dafür, welchen Einfluss die Variable X1 über die Variable X2 hinausgehend auf die Variable Y hat.

iii.

Unstandardisierte vs. standardisierte Regressionsgewichte: i.) Vergleich verschiedener Gruppen; ii.) Vergleich verschiedener Variablen Geht es darum, verschiedene Gruppen von Personen in Bezug auf die regressive Abhängigkeit zu vergleichen, so greift man auf die unstandardisierten Regressionsgewichte zurück – sofern in den verschiedenen Gruppen dieselben Messinstrumente zum Einsatz kamen. Da sich die Varianzen in den verschiedenen Gruppen unterscheiden können, sind standardisierte Regressionsgewichte nicht geeignet (es würden unterschiedliche Standardisierungen vorgenommen). Auf standardisierte Regressionsgewichte greift man zurück, wenn man verschiedene Variablen, die in einer unterschiedlichen Metrik erfasst wurden, hinsichtlich ihres Vorhersagebeitrages an der abhängigen Variablen miteinander vergleichen möchte. Für diesen Vergleich sind die unstandardisierten Regressionsgewichte weniger gut geeignet, da die Größe eines unstandardisierten Regressionsgewichts auch von der Metrik einer Variablen abhängt.

19.5: Lineare Regression für mehrere metrische unabhängige Variablen Mehr als zwei unabhängige Variablen: erweiterte Regressionsgleichung:

Berechnung von b0 (Achsenabschnitt, bzw. additive Konstante:

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

Berechnung des Regressionsgewichts bj:

19.6: Multiple Korrelation und Determinationskoeffizient i.

Determinationskoeffizient Die Pendants zum einfachen Korrelationskoeffizienten und zum Determinationskoeffizienten der einfachen Regressionsanalyse sind der multiple Korrelationskoeffizient und der multiple Determinationskoeffizient R2.

Berechnung der multiplen Korrelation R (im Gegensatz zu r, das die Produkt-MomentKorrelation bei einer einfachen Regression bezeichnet):

Oder:

Der multiple Determinationskoeffizient R2 berechnet sich nach:

Der multiple Determinationskoeffizient (das multiple Bestimmtheitsmaß) ist der Anteil an der Varianz der abhängigen Variablen, der durch alle unabhängigen Variablen gemeinsam bestimmt (determiniert) wird. Der Determinationskoeffizient kann Werte zwischen 0 und 1 annehmen.

Multiple Determinationskoeffizienten zwischen 0 und 1 zeigen das Maß der Vorhersageleistung der unabhängigen Variablen an. Je höher der Determinationskoeffizient ist, umso größer ist der Anteil der durch die unabhängigen Variablen erklärten Varianz der abhängigen Variablen.

ii.

Varianzzerlegung

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

iii.

Quadratsummenzerlegung

19.7: Inferenzstatistik zur multiplen Regressionsanalyse i.

Populationsmodell der multiplen Regression Bedingte Erwartung von Y:

Zerlegung der abhängigen Variablen Y:

ii.

Inferenzstatistische Schätzung und Testung Zur inferenzstatistischen Absicherung der geschätzten Modellparameter und zur Bestimmung der Konfidenzintervalle werden drei zusätzliche Annahmen getroffen: (1) Homoskedastizität (2) Normalverteilung der Residualvariablen (3) Unabhängigkeit der Residuen

iii.

Schätzung der Residualvarianz und des Standardschätzfehlers Schätzung der Residualvarianz (k Regressionsgewichte):

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

Die Wurzel aus dieser geschätzten Populationsfehlervarianz ist der geschätzte Standardschätzfehler der multiplen Regressionsanalyse. Er gibt an, wie stark in der Population die beobachteten y-Werte um die vorhergesagten Werte streuen.

iv.

Schätzung, Signifikanztest und Konfidenzintervalle für die multiple Korrelation und den Determinationskoeffizienten Korrigiertes R2 für kleine Stichproben (n):

Signifikanztest – Nullhypothese:

Prüfstatistik folgt einer F-Verteilung mit df1 = k (Zählerfreiheitsgrade) und df2 = n-k-1 (Nennerfreiheitsgrade):

Oder:

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III Wobei der Nenner bei letzterem Bruch = «Quadratsumme der vorhergesagten Werte» (QSR) und der Zähler = «Residualquadratsumme» (QSE). Und somit: F = MQSR / MQSE (mittlere QSR / mittlere QSE)

Und daraus lässt sich ein erwartungsgetreues R2 (Population) ableiten (R2 ist nicht erwartungsgetreu):

v.

Schätzung, Signifikanztest und Konfidenzintervalle für einen Partialkoeffizienten beta_j Überprüfen der Nützlichkeit eines Prädiktors; Variante 1 H0: einzelner Partialregressionskoeffizient beta_j ist in der Population gleich null:

Bestimmung des Standardfehlers für ein Regressionsgewicht b_j

Entspricht der quadrierten multiplen Korrelation der unabhängigen Variablen Xj mit allen anderen Variablen. Darf nicht zu hoch sein, sonst wird der Standardfehler zu gross (Multikollinearität). Spezialfall: zwei Prädiktoren

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

Signifikanzest: t-Test mit df = n-k-1

Wobei beta_0j meist 0 ist!

Überprüfung der Nützlichkeit eines Prädiktors, Variante 2 Verlust an aufgeklärter Varianz überprüfen, wenn die betreffende unabhängige Variable aus der Regressionsgleichung entfernt wird:

Anzahl Freiheitsgrade: df1 = 1 (Zähler), df2 = n-k-1 (Nenner).

vi.

Schätzung, Signifikanztest und Konfidenzintervalle für einen Satz unabhängiger Variablen Neben der Frage, ob einzelne unabhängige Variablen einen bedeutsamen Einfluss auf die abhängige Variable haben, kann auch die Frage untersucht werden, ob eine Menge von unabhängigen Variablen einen bedeutsamen Einfluss auf die abhängige Variable hat. Hierzu betrachtet man die Determinationskoeffizienten zweier Modelle.

Vergleich der Nullhypothese mittels F-Test:

Anzahl Freiheitsgrade: df1 = ku-ke (Zähler), df2 = n-ku-1 (Nenner)

vii.

Verfahren zur Auswahl unabhängiger Variablen: i.) Theoretische Auswahl; ii.) Datengesteuerte Auswahl (Rückwärtselimination, Vorwärtsselektion, Schrittweise Regression) Methoden zur Auswahl von unabhängigen Variablen für das Regressionsmodell:

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III (1) die Auswahl von unabhängigen Variablen aufgrund theoretischer Überlegungen (2) die datengesteuerte Auswahl von Variablen zur Maximierung der Varianzaufklärung der abhängigen Variablen bei gleichzeitiger Minimierung der Anzahl zu berücksichtigender unabhängiger Variablen. Zur datengesteuerten Auswahl gibt es drei Strategien: (1) die Vorwärtsselektion, (2) die Rückwärtselimination und (3) die schrittweise Regression.

19.11: Analyse kategorialer unabhängiger Variablen i.

Dummy-Codierung (Beispiel materielle Situation und Stadtgrösse): i.) Bedeutung Achsenabschnitt b0; ii.) Bedeutung Regressionsgewichte bj. Um kategoriale unabhängige Variablen im Rahmen der Regressionsanalyse untersuchen zu können, ist es notwendig, die Information, die in den unabhängigen kategorialen Variablen enthalten ist, zunächst anhand von Codiervariablen abzubilden. Im Allgemeinen werden zur Codierung einer unabhängigen Variablen, die aus c Kategorien besteht, c − 1 Codiervariablen benötigt.

Die Codiervariablen bei der Dummy-Codierung dienen dazu, die Mittelwerte der abhängigen Variablen zwischen zwei Kategorien der unabhängigen Variablen zu vergleichen. Es handelt sich dabei immer um den Vergleich einer Referenzkategorie mit einer anderen der c − 1 Kategorien.

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III

Interpretation der Regressionsgleichung am Beispiel materielle Situation vs. Stadt:

b0: Die Regressionskonstante b0 entspricht dem Mittelwert der abhängigen Variablen in der Referenzkategorie, d. h. der Personengruppe, die auf allen Codiervariablen eine 0 aufweist. bj: Das Regressionsgewicht bj der ersten Dummy-Variablen entspricht der Differenz zwischen dem Mittelwert der Kategorie, die auf der Variablen X1 eine 1 zugeordnet bekommen hat, und dem Mittelwert der Referenzgruppe.

ii.

Effektcodierung: i.) ungewichtete Effektcodierung (Bedeutung b0, bj); ii.) gewichtete Effektcodierung (Bedeutung b0, bj); iii.) gewichtete vs. ungewichtete Effektcodierung Bei der Effektcodierung unterscheidet man zwei Formen: die ungewichtete und die gewichtete Effektcodierung.

Regeln für ungewichtete Effektcodierung:

Regeln für gewichtete Effektcodierung:

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III Auf der ersten Codiervariablen X1 wird der Referenzkategorie der Wert −(nX 1 / -nR) zugewiesen, wobei mit nX1 die Stichprobengröße derjenigen Kategorie bezeichnet wird, der auf der Codiervariablen X1 eine 1 zugewiesen wurde, während mit nR die Stichprobengröße in der Referenzkategorie bezeichnet wird.

Auf die ungewichtete Effektcodierung greift man üblicherweise dann zurück, wenn die Unterschiede in den Größen der Teilstichproben auf unsystematische Ausfälle zurückgeführt werden können. Ein typisches Anwendungsgebiet der ungewichteten Effektcodierung sind experimentelle Studien, in denen sich die Bedingungen aufgrund unsystematischer Unterschiede in ihrer Stichprobengröße unterscheiden.

Auf die gewichtete Effektcodierung greift man in Anwendungen zurück, bei denen die Unterschiede in den Kategorienhäufigkeiten inhaltlich relevant sind und berücksichtigt werden müssen. Dies ist insbesondere dann der Fall, wenn die Unterschiede zwischen den Größen der Teilstichproben repräsentativ für die Population sind.

iii.

Vergleich Dummy- vs. Effektcodierung

iv.

Analyse mehrerer kategorialer unabhängiger Variablen: i.) Codiervariablen für unabhängige Merkmale; ii.) Codiervariablen für Interaktion Zunächst muss man sich für eine Form der Codierung entscheiden. Dann müssen für alle unabhängigen Variablen Codiervariablen definiert werden. Um Interaktionen zwischen den unabhängigen Variablen zu überprüfen, müssen wie bei der moderierten Regressionsanalyse Produktvariablen in die Regressionsgleichung aufgenommen werden. Die Produktvariablen erhält man, indem man alle Codiervariablen, die zur Codierung der Bedingungen der ersten unabhängigen Variablen benötigt werden, mit allen Codiervariablen, die zur Codierung der Bedingungen der zweiten unabhängigen Variablen benötigt werden, multipliziert.

19.12: Gemeinsame Analyse kategorialer und metrischer unabhängiger Variablen i.

Additive Verknüpfung kategorialer und kontinuierlicher Variablen (Kovarianzanalyse): i.) Bedeutung von b0; ii.) Bedeutung von b1 und b2; iii.)

Kapitel 19 – Multiple Regression (Woche 1 -4)

Fernuni – Modul 13; Forschungsmethoden und Statistik III Adjustierte Mittelwerte; iv.) Zentrierte Kovariaten; v.) Interpretation der adjustierten Mittelwerte (Korrektheit Regressionsmodell, Abhängigkeit adjustierter Mittelwertsunterschiede von den unabhängigen Variablen, Messfehlerfreiheit der unabhängigen Variablen) Verknüpft man die unabhängigen kategorialen und kontinuierlichen Variablen additiv, erhält man ein multiples Regressionsmodell, das äquivalent zu der sog. Kovarianzanalyse ist. Die Kovarianzanalyse ist eine Erweiterung der Varianzanalyse um kontinuierliche unabhängige Variablen, die Kovariaten genannt werden. Die Kovarianzanalyse wird v. a. aus zweierlei Gründen eingesetzt: Zum einen kann man untersuchen, ob eine oder mehrere kontinuierliche Variablen einen Einfluss auf die abhängige Variable haben, der über die Effekte der kategorialen Variablen hinausgeht. Zum anderen wird durch die kontinuierlichen Variablen zusätzliche Varianz erklärt, wodurch die Residualvarianz in der abhängigen Variablen v...


Similar Free PDFs