Title | Datenanalyse 04 - Logistische Regression I |
---|---|
Author | Julia Hein |
Course | VL Datenanalyse |
Institution | Universität Trier |
Pages | 4 |
File Size | 279.8 KB |
File Type | |
Total Downloads | 85 |
Total Views | 123 |
Zusammenfassung mit Mitschrift aus der vierten Vorlesungseinheit (WS 2016/17)...
Datenanalyse – logistische Regression (1) (06.12) logistische Regressionen: Ausgangspunkt lineare Regressionen: Einflussfaktoren auf eine metrische Variable häufig Interesse an nicht-metrischen Variablen logistische Regression: dichotome abhängige Variable: Eintreten versus Nicht-Eintreten eines Ereignisses – Einfluss verschiedener epidemiologischer Faktoren auf das Auftreten einer Krankheit – Einfluss des Alters und des sozioökonomischen Status auf den Wohnbesitz – Beteiligung an der letzten Bundestagswahl (wählen gegangen vs. nicht wählen gegangen) – Überleben auf der Titanic (Titanic überlebt vs. nicht überlebt) Haben Frauen/Kinder tatsächlich eine höhere Überlebenschance gehabt im Vgl. zu Alten/Männern? Durch Dummy Kodierung können auch ordinale oder nominale Variablen integriert werden logistische Regressionen: Warum keine lineare Regression?
Unklarheit hinsichtlich der Interpretation der abhängigen Variablen AV kann als Wahrscheinlichkeit interpretiert werdne, aber so könnte man theoretisch zu Wahrscheinlichkeiten kommen, die größer 1 oder kleiner 0 sind, was nicht logisch ist falls Wahrscheinlichkeit: Interpretation der Schätzungen größer 1 und kleiner 0 BLUE-Bedingungen: Homoskedastizität ist hier verletzt: die Fehler sind nicht gleich verteilt, d.h. es können Muster in Abhängigkeit der UV gefunden werden
Bei dieser Graphik sieht man folgendes:
Ab kleiner als 16 J. wird die Wahrscheinlichkeit kleiner 0 Ab größer als 35 J. wird die Wahrscheinlichkeit größer 1
d.h. es ergibt sich ein Muster aus den Fehlern (bzw. Abstand der Messpunkte zur Geraden ergibt Muster) Problem: Homoskedastizität ist verletzt! Fazit: die lineare Regression versagt hier
Verlauf der Regressionsmodelle:
man sollte eine logistische Funktion zur Vorhersage nutzen, da hier die Grenzwerte asymptotisch gegen 0 bzw. 1 gehen und somit die Wahrscheinlichkeit für das Eintreten eines Ereignisses nie kleiner 0 oder größer 1 werden kann logistische Regressionen: Beispiel „Führungsposition“ es wurden nur promovierte Personen inkludiert Frage: Spielt die soziale Herkunft eine Rolle bei der Erlangung einer Führungsposition? – AV: dichotom (Führungsposition ja oder nein) – UV: soziale Herkunft aus drei Klassen
im Nenner steht hier in der Klammer die Formel der Regressionsgleichung, wie wir sie aus der linearen Regression kennen Was bedeuten diese Zahlen? Für das Kleinbürgertum sind die Dummy-Werte x1 und x2 jeweils 0, dann ergibt sich ein f(x)-Wert von: 1/(1 + e2,278 ) = 0,09296 = 0,093 Kleinbürgertum = weder Großbürgertum noch gehobenes Bürgertum; daher Dummy jeweils 0 für x1 und x2 (hier also nur die Konstante) entsprechend gilt:
– –
f (Bürgertum) = 1/(1 + e-(-2,278 + 0,393 •1 + 0,829 •0) = 1/(1 + e1,885) = 0,132 f (Großbürgertum) = 1/(1 + e-(-2,278 + 0,393 •0 + 0,829 •1) = 1/(1 + e1,449) = 0,190
Es lassen sich also die Anteilswerte für die jeweiligen Gruppen bestimmen! Noch ein zweiter Blick und eine zweite Interpretation: dazu ein Blick zurück auf die Originaldaten
–
die Chance für Promoventen aus dem Kleinbürgertum beträgt 154/1502 oder 0,103
–
die Chance für Promoventen aus dem gehobenen Bürgertum beträgt 271/1785 oder 0,152
–
die Chance für Promoventen aus dem Großbürgertum beträgt 89/379 oder 0,235
Wahrscheinlichkeit = die, die es schaffen / alle Personen Chance = die, die es schaffen / die, die es nicht schaffen das Konzept der Chance (odd) ist nicht mit dem Anteilswert zu verwechseln! Nun lassen sich relative Chancen (Synonym: Chancenverhältnis) oder so genannte odd-ratios berechnen: – odd ratio gehobenes Bürgertum/Kleinbürgertum = 0,1502/0,103 = 1,48 hier ist 0,152 richtig, statt 0,1502! – odd ratio Großbürgertum/Kleinbürgertum = 0,235/0,103 = 2,29 Nun noch ein Blick auf den Output:
exponierter Regressionskoeffizenten (Exp(B)) entspricht odds-ratio Interpretation: Die Chance für jemanden aus dem Großbürgertum eine Führungsposition zu erhalten ist im Vgl. zum Kleinbürgertum um das 2,29fache höher oder um 129% höher. nächster Schritt: Hinzunahme weiterer unabhängiger Variablen – Geschlecht (0 = Mann, 1 = Frau) – Alter bei der Promotion (in Jahren) Ergebnis:
an den Effekten der Herkunft ändert sich fast nichts Alter bei der Promotion hat einen negativen Einfluss auf die Chance eine Führungsposition zu erhalten (sieht man daran, dass das Exp(B) kleiner als 1 ist) Interpretation: Jedes Jahr, das man bei der Promotion älter ist, sänkt die Chance auf eine Führungsposition um (1-0,9413)*100 % d.h. um 5,87%...