12 Pfadanalyse und Lineare Strukturgleichungsmodelle PDF

Title 12 Pfadanalyse und Lineare Strukturgleichungsmodelle
Course Multivariate Verfahren
Institution Universität zu Köln
Pages 6
File Size 490.5 KB
File Type PDF
Total Downloads 38
Total Views 168

Summary

Wintersemester...


Description

12 Pfadanalyse und Lineare Strukturgleichungsmodelle Dienstag, 16. Januar 2018

10:00

Pfadanalyse • mehrere (multiple) Regressionsbeziehungen gleichzeitig darzustellen und zu berechnen • Darstellung von komplexen Zusammenhängen zwischen mehreren beobachteten Variablen, berechnen und überprüfen Beim 2. Für A B D E einzelne Regressionsgleichungen



• Variablen können unabhängige und abhängige Variablen zugleich sein ○ zum 1. Modell: ○ A ist UV, C ist AV, B ist UV und AV ○ A beeinflusst B; B beeinflusst C; B wird von A beeinflusst • Pfadanalytische Modell lässt sich durch eine Anzahl an multiplen Regressionsgleichungen beschreiben: eine Gleichung für jede abhängige Variable zwei Regressionsgleichungen für Y2 und Y3 •

• analog MR: Messfehler nur für AV nicht für UV berücksichtigt

Typen von Effekten • direkte Effekte: wenn eine Variable direkt auf eine andere wirkt ○ Y1 -> Y2, Y2 -> Y3 • indirekte: Y1 -> Y3 ○ Effekt einer Variablen (Y1) auf eine andere (Y3), der durch eine dritte Variable (Y2) vermittelt wird ○ Drittvariable auch Mediator(variable) hier: Y2 für den Effekt von Y1 auf Y3 • totale Effekte (Y1 auf Y3 = Summe aus direkten und indirekten Effekten) ○ gleichzeitig einen direkten und einen indirekten Effekt einer Variablen auf eine andere geben ○

Arten von Variablen • Exogene Variable (Prädiktor exogen Y1) ≅unabhängige Variable ○ werden im Modell nicht erklärt, Auf sie zeigt kein Pfeil, es gibt für sie keine Regressionsgleichung, Hier: nur Y1 • Endogene Variable ≅ abhängige Variable (Hier: Y2und Y3 - Kriterium endogen) ○ werden durch das Modell erklärt ○ Für jede endogene Variable gibt es eine Regressionsgleichung ○ Ihre Werte verändern sich bei Veränderung der exogenen Variablen • Mediatorvariablen = vermittelnde Variablen (Hier: Y2 Mediator endogen) ○ stehen in der Kausalkette zwischen zwei Variablen und sind somit abhängige und unabhängige Variable zugleich

Rekursive und nicht-rekursive Modelle Rekursive Modelle: Pfeile weisen immer nur in eine Richtung ○ Parameter leichter/eindeutiger zu bestimmen

Multivariate Verfahren Seite 1

Nicht-rekursive Modelle: wechselseitige Beeinflussung oder Rückkopplung ○ lassen sie sich nicht mehr mithilfe multipler Regressionsgleichungen beschreiben

Pfadmodell und Pfadkoeffizienten

• Pfadkoeffizienten = Regressionsgewichte der multiplen Regressionsgleichung, an die Pfeile im Pfaddiagramm geschrieben • 1. Index jeweilige abhängige Variable, 2. Index für Prädiktor • Die additiven Konstanten (Achsenabschnitte) tauchen im Pfadmodell nicht auf (da meist nicht so interessant), aber in der Gleichung • Alle Variablen mit Y, da manche Variablen abhängige und unabhängige Variablen zugleich sind • endogenen Variablen haben immer auch einen Fehlerterm ε • Indirekte Effekte: Multiplikation der Pfadkoeffizienten des indirekten Weges ○ Y3 auf Y2: β13*β21 • Totale Effekt: Summe des indirekten und direkten Effektes ○ Y3 auf Y2: β13*β21 + β23 • Alle Effekte liefern die Information, um wieviel sich die jeweilige AV ändert, wenn sich eine UV um ○ eine Einheit erhöht (nicht standardisierte Pfadkoeffizienten) ○ eine Standardabweichung erhöht (standardisierte Pfadkoeffizienten) sh. Beispiel IQ Eltern, IQ Kinder

Regressionsgleichungen • • Y1 = Mediatorvariable • Setzt man für die Mediatorvariable (Y1) ihre Regressionsgleichung in der ersten Gleichung ein, erhält man den Gesamt Effekt der exogenen Variablen Y3auf das Kriterium Y2. •

Bestimmung der Modellparameter • Schätzung der Modellparameter (Pfadkoeffizienten, Varianzen, Kovarianzen, evtl. Konstanten + Mittelwerte der Variablen) (z.B. mithilfe der Maximum-Likelihood Methode) • Logik: Das Schätzverfahren bestimmt Varianzen, Kovarianzen und ggf. Mittelwerte der einzelnen Variablen so, dass ○ die im Modell enthaltenen Restriktionen berücksichtigt werden ○ sie mit den Stichprobendaten möglichst gut in Einklang stehen • Nicht-rekursive Modelle sind nur unter bestimmten Voraussetzungen bestimmbar, wir beschäftigen uns nur mit rekursiven Modellen • Auch Bestimmung der Standardfehler berechnet, dadurch der Konfidenzintervalle

Multivariate Verfahren Seite 2

Modellüberprüfung • Sowohl die Gültigkeit des Modells insgesamt als auch einzelne Parameter können überprüft werden • Modellgüte insgesamt: ○ Chi2-Wert (möglichst klein, nicht signifikant) -> Abweichung des empirischen Modells vom Modell mit Restriktionen ○ RMSEA (Root mean square error of approximation) (möglichst klein, nicht signifikant) ○ CFI (Comparative Fit index) (möglichst groß, nahe 1) • Modelle hinsichtlich ihrer Güte miteinander vergleichbar Beispiel: Stimmung wird zu 4 Zeitpunkten im Abstand von 2 Stunden erfasst (morgens, mitttags, nachmittags, abends) Von wie vielen vorangegangenen Zeitpunkten ist die Stimmung direkt abhängig? • Autoregressives Modell: eine Variable ist von derselben Variablen zu einem oder mehreren vorhergehenden Messzeitpunkt(en) abhängig ODER Ausprägung einer Variablen wird aus der Ausprägung derselben Variablen, die zuvor gemessen wurden, vorhergesagt => am wenigsten zu schätzende Parameter, restriktivstes Modell, konkrete Behauptungen z.B. Y1 auf Y2 = 0 direkter Effekt vom vorherigen und vorvorherigen Zweitpunkt, auch Y2 hat direkten Einfluss auf Y4 und Y1 auf Y3

zusätzlich: erster MZP hat Einfluss auf letzten MZP (Y1 auf Y4) => am meisten zu schätzende Parameter Beispiel-Ergebnis

• nicht-standardisierte und standardisierte Pfadkoeffizienten (fett) + ihre Standardfehler (in Kl.) • für endogene Variablen: nicht-standardisierte und standardisierte Fehlervarianzen; (Standardfehler dieser) • für die exogenen Variabl(en) nicht-standardisierte und standardisierte Varianz(en) Überprüfung einzelner Parameter • t-Test zur Prüfung auf Signifikanz ○ t = Parameter/Standardfehler • ob in der Population, aus der die Stichprobe stammt, der jeweilige Parameter mit relativer Sicherheit von Null verschieden ist • Auch Konfidenzintervalle lassen sich berechnen

Überprüfung indirekter Effekte (Mediatoreffekt) • Indirekte Effekte setzen sich aus dem Produkt zweier Pfadkoeffizienten zusammen • Konsequenz: folgt ihre Verteilung nicht der t-Verteilung => schwieriger zu beurteieln • 2 Varianten zur Überprüfung ○ Beide Methoden erlauben das Berechnen eines Konfidenzintervalls für den Mediatoreffekt, Schließt das Konfidenzintervall den Wert Null mit ein, ist der

Multivariate Verfahren Seite 3

Mediatoreffekt nicht signifikant 1. Sobel-Test (gängig) 2. Bootstrapping (genauer, besser) Bootstrapping • Methode der Datensimulation: Schätzung der Stichprobenkennwerteverteilung aus einer einzigen Stichprobe • Aus Stichprobe mit Umfang n eine große Anzahl an Stichproben mit Zurücklegen gezogen, haben jeweils auch wieder den Umfang n ○ 100 Personen, immer eine wird nacheinander zurückgelegt -> 1000 mal -> ergibt SKV • Verteilung eines bestimmten Parameters (z.B. Mittelwert oder eben auch Regressionsgewicht) ergibt dann die Stichprobenkennwerteverteilung

Lineare Strukturgleichungsmodelle • „Kombination“ aus Faktorenanalyse und Pfadanalyse • Sie erlauben es, Abhängigkeits-und Beeinflussungsstrukturen auf der Ebene wahrer, messfehlerbereinigter Unterschiede zu untersuchen • Faktorenanalyse (Messmodell): Beziehung zwischen latenten Variablen und ihre Indikatoren • Pfadanalyse (Strukturmodell): komplexe Abhängigkeitsstrukturen zwischen (manifesten) Variablen • Lineare Strukturgleichungsmodelle: untersucht komplexe Beziehungen zwischen latenten Variablen und Berücksichtigt ihre Beziehung zu den Indikatoren ○ Im Gegensatz zur Pfadanalyse kann hier auch Berücksichtigung der Messfehlerbehaftetheit der exogenen Variablen • Dasselbe Vorgehen, wie bei konfirmatorischer Faktorenanalyse: ○ Modellspezifikation, Identifikation, Schätzung der Modellparameter, Beurteilung der Modellgüte, ggf. Modellmodifikation

Berücksichtigung des Messfehlers der exogenen V. • bei Nichtberücksichtigung wird Zusammenhang mit endogenen V. unterschätzt, umso mehr je größer der Messfehler • SGM können zwischen messfehlerbedingten und wahren Einflüssen trennen Messmodell • Erfassung der latenten Variablen durch metrische Indikatoren -> pro latenter V. mind. zwei Indikatoren, um Messfehler und wahre Effekte trennen zu können

Strukturmodell • spezifiziert Beziehungen latenter Variablen untereinander -> können sehr komplex sein (auch indirekte Effekte möglich)

• einfaches Struktur- und Messmodell • enthält Fehlerkomponenten der manifesten Variablen e • berücksichtigt Fehlerkomponenten für latente, endogene Variable Kaufverhalten (wird nicht nur von Einstellung beeinflusst)

Multivariate Verfahren Seite 4

Komplexe Bezüge zwischen latenten Variablen

Residuen der endogenen, latenten Variable ζ (Zeta) • wahrer Wert jeder endogenen Variable von ○ exogener Variable und ○ unbekannten Faktoren abhängig -> Fehlerterm • Fehlerterm beinhaltet Anteil der endogenen Variablen, der nicht durch die exogenen Variable(n) vorhergesagt werden kann

Bezeichnungen im SGM • • • • • •

ε:Residuum der Indikatorvariablen (= Messfehler und evtl. variablenspezifische Anteile) λ:Ladung der Indikatorvariablen auf den latenten Variablen Y:Indikatorvariablen / manifeste Variablen η:latente Variablen (endogene und exogene) β: Pfadkoeffizienten: Beziehungen zwischen den latenten Variablen (Regressionskoeffizienten) ζ:Residuen der endogenen, latenten Variablen. Anteile, die nicht durch die exogenen Variablen erklärt werden.

1 Modellierung • keine Verbindung zwischen εs => Fehler unkorreliert • λs können gleich sein, oder auf 1 festgesetzt (für Identifizierbarkeit) ○ gleiche Ladungen: Indikatorvariablen erfassen jeweilige latente Variable gleich gut • ßs an Pfeilen -> erwartet ß von Null verschieden; fehlende Pfeile bedeuten fehlende Korrelationen (Restriktionen) ß = 0 • Je restriktiver ein Modell, desto mehr Restriktionen, desto höher sein empirischer Gehalt, desto eher kann es falsifiziert werden (Sparsamkeitsprinzip). • Was sind Restriktionen? z.B. ○ Fehlen von Zusammenhängen ○ Gleichheit von Faktorladungen ○ Gleichheit von Fehlervarianzen ○ Bestimmte Werte für einzelne Parameter (wenn keine Fixierung)

2 Identifikation/Fixierung • Identifikationsproblem: um Modell identifizierbar zu machen, müssen genügend Informationen vorliegen • Fixierung der Metrik der latenten Variablen (da keine festgelegte Skalierung) ○ mind. eine Ladung pro Faktor oder eine Faktorvarianz auf 1

3 Parameterschätzung • sh Faktorenanalyse: Maximum-Likelihood-Kriterium • Ergebnis: standardisierte und nicht-standardisierte Parameter und ihre Standardfehler ○ Anhand der Standardfehler auf Signifikanz prüfen • Parameter, die zuvor fixiert wurden, müssen nicht geschätzt werden. • Im Einzelnen werden bestimmt: ○ Die Ladungen der manifesten Variablen auf den Faktoren (sofern nicht fixiert) ○ Die Pfadkoeffizienten(β) für den Zusammenhang der latenten Variablen ○ Alle Fehlervarianzen (der manifesten Variablen) e ○ Die Residualvarianzen der latenten endogenen Variablen zeta ○ Die Varianzen der exogenen latenten Variablen (sofern nicht fixiert) Multivariate Verfahren Seite 5

• wird manifeste Variable nur durch einen Faktor beeinflusst ○ Varianz + quadrierte Faktorladung = 1

4 Beurteilung der Modellgüte • Es wird jeweils geprüft, ob die Daten mit dem jeweiligen Modell in Einklang stehen => sh. konf. Fak. • Modellvergleiche: Chi2-Differenzentest • Gibt es zu einem Problem mehrere Modelle, die zu den Daten passen, ist theoretisch zu begründen, welches Modell zu bevorzugen ist • Hat man ein Modell gefunden, das die Daten angemessen beschreibt, bedeutet dies nicht, dass es nicht auch noch andere, mindestens gleich gute Modelle geben kann. • Wichtigkeit der Theorie bei der Modellerstellung und – bewertung Vergleich nicht-geschachtelter Modell • Informationskriterien(IC) • AkaikeInformation Criterion(AIC) • Bayesion Information Criterion(BIC) • Keine standardisierten Maße, d.h. kein festgelegter Wertebereich • Das Modell mit dem niedrigsten Wert wird bevorzugt • Belohnen sparsame Modelle, besonders BIC • Nur deskriptiv, kein Signifikanztest Kausalität • LSGM wurden/werden oft auch Kausalmodelle genannt • Hier ist aber Vorsicht geboten: In den Modellen können zwar viele Stör-und moderierende Variablen mit aufgenommen werden, dies garantiert aber nicht, dass man alle Einflüsse auf eine Variable tatsächlich erfasst hat. • Auch bedeutet die Verträglichkeit eines Modells mit den Daten nicht, dass es nicht auch ein anderes Modell geben kann, das genauso gut zu diesen Daten passt. • Eine kausale Interpretation ist deshalb immer mit großer Vorsicht vorzunehmen Zusammenfassung • Analyse der Kovarianzen zwischen vielen beobachteten Variablen • ob im Einklang mit oder im Widerspruch zu vorher aufgestellten Kausalmodellen • häufig dann angewandt, wenn man Kausalmodelle überprüfen möchte, ein experimentelles Vorgehen aber nicht möglich ist [praktische und/oder ethische und/oder grundsätzliche Gründe] • Hat man ein plausibles und zu den Daten passendes Kausalmodell gefunden, schließt dies dennoch nicht aus, das das Modell „falsch“ ist bzw. es andere, gleich gute oder bessere Modelle gibt

Multivariate Verfahren Seite 6...


Similar Free PDFs