Datenanalyse 04 - Logistische Regression I PDF

Title	Datenanalyse 04 - Logistische Regression I
Author	Julia Hein
Course	VL Datenanalyse
Institution	Universität Trier
Pages	4
File Size	279.8 KB
File Type	PDF
Total Downloads	85
Total Views	123

Preview

CLICK TO PREVIEW PDF

Summary

Zusammenfassung mit Mitschrift aus der vierten Vorlesungseinheit (WS 2016/17)...

Description

Datenanalyse – logistische Regression (1) (06.12) logistische Regressionen: Ausgangspunkt lineare Regressionen: Einflussfaktoren auf eine metrische Variable häufig Interesse an nicht-metrischen Variablen logistische Regression: dichotome abhängige Variable: Eintreten versus Nicht-Eintreten eines Ereignisses – Einfluss verschiedener epidemiologischer Faktoren auf das Auftreten einer Krankheit – Einfluss des Alters und des sozioökonomischen Status auf den Wohnbesitz – Beteiligung an der letzten Bundestagswahl (wählen gegangen vs. nicht wählen gegangen) – Überleben auf der Titanic (Titanic überlebt vs. nicht überlebt)  Haben Frauen/Kinder tatsächlich eine höhere Überlebenschance gehabt im Vgl. zu Alten/Männern?  Durch Dummy Kodierung können auch ordinale oder nominale Variablen integriert werden logistische Regressionen: Warum keine lineare Regression? 

 

Unklarheit hinsichtlich der Interpretation der abhängigen Variablen  AV kann als Wahrscheinlichkeit interpretiert werdne, aber so könnte man theoretisch zu Wahrscheinlichkeiten kommen, die größer 1 oder kleiner 0 sind, was nicht logisch ist falls Wahrscheinlichkeit: Interpretation der Schätzungen größer 1 und kleiner 0 BLUE-Bedingungen: Homoskedastizität  ist hier verletzt: die Fehler sind nicht gleich verteilt, d.h. es können Muster in Abhängigkeit der UV gefunden werden

Bei dieser Graphik sieht man folgendes:  

Ab kleiner als 16 J. wird die Wahrscheinlichkeit kleiner 0 Ab größer als 35 J. wird die Wahrscheinlichkeit größer 1

 d.h. es ergibt sich ein Muster aus den Fehlern (bzw. Abstand der Messpunkte zur Geraden ergibt Muster) Problem: Homoskedastizität ist verletzt! Fazit: die lineare Regression versagt hier

Verlauf der Regressionsmodelle:

 man sollte eine logistische Funktion zur Vorhersage nutzen, da hier die Grenzwerte asymptotisch gegen 0 bzw. 1 gehen und somit die Wahrscheinlichkeit für das Eintreten eines Ereignisses nie kleiner 0 oder größer 1 werden kann logistische Regressionen: Beispiel „Führungsposition“  es wurden nur promovierte Personen inkludiert Frage: Spielt die soziale Herkunft eine Rolle bei der Erlangung einer Führungsposition? – AV: dichotom (Führungsposition ja oder nein) – UV: soziale Herkunft aus drei Klassen

 im Nenner steht hier in der Klammer die Formel der Regressionsgleichung, wie wir sie aus der linearen Regression kennen Was bedeuten diese Zahlen? Für das Kleinbürgertum sind die Dummy-Werte x1 und x2 jeweils 0, dann ergibt sich ein f(x)-Wert von: 1/(1 + e2,278 ) = 0,09296 = 0,093  Kleinbürgertum = weder Großbürgertum noch gehobenes Bürgertum; daher Dummy jeweils 0 für x1 und x2 (hier also nur die Konstante) entsprechend gilt:

– –

f (Bürgertum) = 1/(1 + e-(-2,278 + 0,393 •1 + 0,829 •0) = 1/(1 + e1,885) = 0,132 f (Großbürgertum) = 1/(1 + e-(-2,278 + 0,393 •0 + 0,829 •1) = 1/(1 + e1,449) = 0,190

 Es lassen sich also die Anteilswerte für die jeweiligen Gruppen bestimmen! Noch ein zweiter Blick und eine zweite Interpretation: dazu ein Blick zurück auf die Originaldaten

–

die Chance für Promoventen aus dem Kleinbürgertum beträgt 154/1502 oder 0,103

–

die Chance für Promoventen aus dem gehobenen Bürgertum beträgt 271/1785 oder 0,152

–

die Chance für Promoventen aus dem Großbürgertum beträgt 89/379 oder 0,235

 Wahrscheinlichkeit = die, die es schaffen / alle Personen  Chance = die, die es schaffen / die, die es nicht schaffen das Konzept der Chance (odd) ist nicht mit dem Anteilswert zu verwechseln! Nun lassen sich relative Chancen (Synonym: Chancenverhältnis) oder so genannte odd-ratios berechnen: – odd ratio gehobenes Bürgertum/Kleinbürgertum = 0,1502/0,103 = 1,48  hier ist 0,152 richtig, statt 0,1502! – odd ratio Großbürgertum/Kleinbürgertum = 0,235/0,103 = 2,29 Nun noch ein Blick auf den Output:

 exponierter Regressionskoeffizenten (Exp(B)) entspricht odds-ratio Interpretation: Die Chance für jemanden aus dem Großbürgertum eine Führungsposition zu erhalten ist im Vgl. zum Kleinbürgertum um das 2,29fache höher oder um 129% höher. nächster Schritt: Hinzunahme weiterer unabhängiger Variablen – Geschlecht (0 = Mann, 1 = Frau) – Alter bei der Promotion (in Jahren) Ergebnis:

 an den Effekten der Herkunft ändert sich fast nichts  Alter bei der Promotion hat einen negativen Einfluss auf die Chance eine Führungsposition zu erhalten (sieht man daran, dass das Exp(B) kleiner als 1 ist) Interpretation: Jedes Jahr, das man bei der Promotion älter ist, sänkt die Chance auf eine Führungsposition um (1-0,9413)*100 %  d.h. um 5,87%...