Title | Datenanalyse 06 - Ereignisdaten |
---|---|
Author | Julia Hein |
Course | VL Datenanalyse |
Institution | Universität Trier |
Pages | 11 |
File Size | 668.8 KB |
File Type | |
Total Downloads | 102 |
Total Views | 129 |
Zusammenfassung mit Mitschrift aus der sechsten Vorlesungseinheit (WS 2016/17)...
Datenanalyse 05 -Ereignisdaten (20.12.2016)
Warum Ereignisdatenanalyse? soziologische Analysen beschäftigen sich mit Veränderungen – und der Erklärung dieser Veränderungen z.B. Übergang in die Arbeitswelt, vom Zustand kinderlos zu schwanger Gemeinsamkeiten: diskrete (Ziel-) Zustände entweder das eine, oder das andere (z.B. tot vs. lebendig) Übergang zwischen den Zuständen prinzipiell immer möglich (zeitkontinuierlich) Suche nach ursächlichen Prozessen o notwendige Bedingung: Ursache zeitlich vorgelagert (kausale Beziehung) o theoretische Modellierung und Messung o zur Überprüfung Veränderung der unabhängigen Variablen Ereignisdatenanalyse kommt ursprünglich aus der Versicherungsstatistik: Welche Faktoren sind bedeutsam dafür, dass bestimmte Ereignisse eintreten? Schwierigkeiten bei der Analyse von Querschnittsdaten Cross-sectional sample
Problemfelder: 1. kausale Prozesse 2. reziproke Effekte 3. Trennung von Alters-und Kohorteneffekten Wird man im Alter religiöser oder unterscheiden sich die Kohorten in ihrer Religiosität? 4. Berücksichtigung historischer Effekte Welche Auswirkungen haben historische Ereignisse auf die Entwicklung von Kindern/Jugendlichen? 5. Pfadabhängigkeit diese Fragestellungen kann man mit diesen Modellen nicht testen Panel sample
Panel = Erhebung in bestimmten Rhythmen immer mit den gleichen Personen Problemfelder: Informationen nur für den Erhebungszeitpunkt
häufig Konzentration auf einzelne Kohorten o pairfam
o British Birth Cohort Study (März 1958) historische Effekte unterschiedlich im Lebensverlauf (Elder, 1974)
Veränderungen in Kovariaten nicht genau festgelegt (keine genaue Terminierung)
Fluktuationen nicht (immer) feststellbar
Event-Oriented Design
Problemfelder: immer notwendig: retrospektive Erhebungen o Erinnerungsfehler
o unbekannte Informationen Survivor-Bias retrospektiv können nur die Personen befragt werden, die ein Ereignis überlegt haben
generelle Befragungsprobleme EDA als Instrument der Lebensverlaufsanalyse
Beispiel für Survivor-Bias: In Studie von Rosenbaum wurden 80. Jährige zur Ehequalität ihrer eigenen Eltern befragt, die längst verstorben waren. Hier konnten jedoch selektiv nur Daten von Personen erfasst werden, die sich damals reproduziert haben und nun Kinder zum befragen haben. Ereignisdaten: Begriffe und Grundlagen Zensierungen im Überblick (Zensieren = Abschneiden)
rechtszensiert: zum Beobachtungszeitraum ist Ereignis (noch) nicht eingetreten Besonderheit der Ereignisdatenanalyse: sie kann damit umgehen!
Linkszensiert: hierüber weiß man nichts, das Ereignis liegt ggf. vor dem Beobachtungszeitraum Design-Problem: man könnte die Personen fragen, ob zuvor das Ereignis xy eingetreten ist
T=0 bis t=24 entspricht der Verweildauer hier haben wir Informationen (Kovariatenstruktur)
Kovariatenstruktur und Verweildauer geben Aufschluss über den Verlauf und ermöglichen eine Schätzung der Übergangswahrscheinlichkeit
Schwierigkeiten klassische Analyseverfahren: ein Beispiel
Rückfallquoten bei 430 entlassenen Strafgefangenen Daten: Beobachtung in einem 12-Monat-Zeitraum
Vorgehen: OLS-Regression (Ordinary Least Squares) auf eine Dummy-Variable „Rückfall ja“
Probleme: OLS für dichotom abhängige Variable
Dichotomisierung vernachlässigt viele Informationen
12-Monat-Zeitraum willkürlich
Es macht ja einen Unterschied nach wie vielen Tagen eine Person rückfällig geworden ist (die Dichotomisierung ignoriert das jedoch) Weist man dem Tag 365 die Zensierung zu? Was passiert dann mit Personen, die bis dahin nicht rückfällig wurden, aber möglicherweise genau einen Tag später? Lösungsmöglichkeiten: Zensierungen als fehlende Werte
Zensierungen mit Zuweisung des höchsten Wertes
selbst ohne Zensierung: Informationsverlust
Ereignisdaten: Begriffe und Grundlagen
Was interessiert: Übergangsrate zur formalen Definition sind einige formale Klärungen nötig: o T ist eine Zufallsvariable, die die Ankunftszeit bis zum Ereignis wiedergibt
o T>0 die Wahrscheinlichkeit eines Übergangs im Zeitraum [t; t‘] ist dann: o Pr(t ≤ T < t‘│T≥ t), t < t‘ o Entspricht der Wahrscheinlichkeit, dass ein Ereignis im Zeitraum von t bis t’ eintrit
die Verteilung dieser Ankunftszeiten folgt einer Wahrscheinlichkeitsdichtefunktion f(t)
die Wahrscheinlichkeit einer ganz bestimmten Ankunftszeit ist dabei 0 ein konkreter Zeitpunkt wäre eine Linie stat einer Fläche unter der Kurve daher benötigt man einen Zeitraum anstat eines Zeitpunktes F(t) ist die kumulierte Verteilungsfunktion der Ankunftszeiten und gibt die Wahrscheinlichkeit an, dass bis zum Zeitpunkt t ein Ereignis eingetreten ist Zum Verhältnis von f (t) und F (t): Anhand der Dichtefunktion f (t) kann man sehen, wie sich die Wahrscheinlichkeit des Ereigniseintrits über die Prozesszeit verteilt
Die Verteilungsfunktion F (t) gibt dagegen an, wie viele Fälle (Ereigniseintrite) kumuliert in Relation zu allen Fällen bisher aufgetreten sind
G(t) ist dann die Überlebensfunktion (survivor function) und es gilt: G(t) = 1 –F(t) = Pr(T > t) von besonderem Interesse ist nun die bedingten Wahrscheinlichkeit des Übergangs: die Hazardrate - synonym: hazardrate, intensityrate, failurerate, transitionrate, riskfunction, mortalityrate Beispiel Hazardrate:
Hazardrate von 16% bei 29jährigen Frauen in Gruppe „stark religiös“ bedeutet, dass von 100 Frauen durchschnitlich 16 in der nächst folgenden Zeiteinheit heiraten. Definition Hazardrate: r (t) = f (t) / G(t)
-
-
Ereignisdatenanalyse als Verweildaueranalyse: Frage nach dem Zusammenhang zwischen der Verweildauer (im Beispiel oben „Alter der Frau“) und der Wahrscheinlichkeit des Ereigniseintrits Verweildauerabhängigkeit (d.h. exakte Verlaufsmuster der Hazardrate) sind ein wichtiges Thema in Ereignisdatenanalyse, da sich hieran die Wahl eines geeigneten ereignisanalystischen Modells orientiert.
bildliche Darstellung (Diekmann/Miter 1984: 41)
G(t) = Risikopopulation F (t) = die, bei denen das Ereignis aufgetreten ist r (t) = relativer momentaner Durchfluss Sterbetafelanalysen –survival analysis Grundidee: Zerlegung des Beobachtungszeitraums in Intervalle i [ai; bi] benutzt wird die Information, ob in einem bestimmten Intervall das Ereignis eingetreten ist und ob in diesem Intervall eine Zensierung beobachtet wird
Zensierung hier: aufhören etwas zu beobachten (bei Versicherungsdaten z.B. Versicherungswechsel einer Person) benötigte Informationen: ni:= Anzahl der Personen, die den Zeitpunkt ai erleben ci:= Anzahl der Personen, die im Intervall [ai; bi] zensiert werden di:= Anzahl der Personen, die im Intervall [ai; bi] ein Ereignis erleben(d = death) Berechnung verschiedener Größen: - Übergangswahrscheinlichkeit (bedingte Sterbewahrscheinlichkeit):
-
bedingte Überlebenswahrscheinlichkeit:
-
ni ‘ entspricht der Risikopopulation (risk set) aufgrund von Zensierungen ist die Risikopopulation nicht (immer) ni:
-
Überlebensfunktion Gi
-
die Dichtefunktion fi
die absolute Wahrscheinlichkeit, dass das Ereignis in dem betrachteten Intervall i eintrit
wobei hi der Intervalllänge entspricht
-
Hazardrate:
Die Schätzung der Hazardrate bezieht sich auf den Intervallmitelpunkt des Intervalls i
Sterbetafelanalysen
nicht immer liegt das Forschungsinteresse jedoch auf dem Verlauf entsprechender Funktionen – theoretisch ist man an Unterschieden zwischen Gruppen oder etwa Generationen interessiert (s.u.)
Sterbetafelanalysen sind hier nur eingeschränkt nutzbar, aber es besteht die Möglichkeit, Gruppenunterschiede zu untersuchen die Möglichkeiten dieses Verfahrens sind eingeschränkt - Zahl der Kovariaten bzw. Gruppenvergleiche stark eingeschränkt -
je nach Messung der Verweildauer (starke) Abhängigkeit von der Intervalllänge o Achtung: eigentlich müsste das Alter bei der Geburt des ersten Kindes genauer erfasst werden (Übergang sollte zu jedem Zeitpunkt möglich sein)
-
o Probleme bei der Datenerhebung zeitveränderliche Kovariate sind kaum zu berücksichtigen (z.B. Studienabschluss erlangt?)
-
metrische Kovariate sind kaum zu berücksichtigen
Was sind parametrische Verfahren? Probleme bei nicht-parametrischen Verfahren 1. Vergleiche zwischen Subgruppen unübersichtlich 2. zudem: Fallzahlproblem 3. Klassifizierung metrischer unabhängiger Variablen 4. Einfluss verschiedener unabhängiger Variablen sowie Moderations-und Suppressionsanalysen bei parametrischen Verfahren wird der genaue Verlauf der Hazardrate (und damit der anderen Funktionen) festgelegt - (teilweise) theoretische Modellierungen o Beispiel: Sichelfunktion und das Vergeben-Vergessen-Modell o Beispiel: Sichelfunktion und stayer-mover-Modelle Stayer: Personen, die sich nie scheiden lassen
Mover: Personen, die sich konstant immer scheiden lassen der Anteil dieser Personen sinkt mit der Zeit automatisch und damit steigt der relative Anteil der Stayer
Exponentialmodell einfachste Form der Parametrisierung: Exponentialmodell hier finden sich folgende Größen -
Dichtefunktion:
-
Survivor- oder Überlebensfunktion: Hazardfunktion:
r(t) = a Funktion ist konstant
typischer Verlauf der Survivorfunktion:
zweiter und wichtigerer Teil:
Interpretation?
Alternative: piecewise constant exponential models Grundannahme: die Übergangsrate kann sich zwischen vorab definierten Intervallen unterscheiden, in den Intervallen ist sie dann konstant (piecewise constant eben!) piecewise constant exponential models: grapische Darstellung:
Bis 20 fast keine Geburten, ab 40 auch fast keine Geburten mehr „The Times They Are A-Changing...“ – zeitveränderliche Kovariate -
Grundvorhaben ist die Untersuchung von Kausalität Kausalität kann nur mit Veränderungen untersucht werden viele interessierenden Größen ändern sich im Laufe der Zeit o in unserem Beispiel: Heirat beeinflusst Geburtenwahrscheinlichkeit o Frage: Erhöht das Verheiratetsein das Risiko einer Geburt o Modellierung?
Episodensplitung - die bisherige Beobachtungszeit wird unterteilt in eine Phase bis zur (ersten) Heirat und eine zweite Phase nach der ersten Heirat - für diese (neuen und mehr) Episoden wird dann wie bisher die Hazardrate bestimmt
weitere Parametrisierungen: gerneralisierte log-logistische Modelle haben einen Vorteil: sie erlauben eine explizite Differenzierung zwischen Timing- und Niveaueffekten (s. Bespiel unten) - es sind viele weitere Formen der Übergangsrate denkbar:
log-logistic hazard: Veränderung des b-Parameters: Form der Übergangsrate verändert sich Beispiele: Akademisierung von Frauen geht mit höherer Kinderlosigkeit einher
2 Erklärungen: institutionelle Erklärung (Timing-Effekt) vs. Humankapitaleffekt (Niveaueffekt) institutionelle Erklärung: längere Ausbildungszeit, daher während der Ausbildung keine Kinder, danach aber schon häte zur Folge, dass sich die Kurve nur verschiebt Humankapitaleffekt: Für Akademiker sind Kinder teurer, daher haben sie tatsächlich weniger (Niveaueffekt)
Cox-Regressionen Cox-Regressionen als semi-parametrisches Modell im US-amerikanischen raum sehr verbreitet, während in deutschsprachigen Zeitschriften parametrische Modelle überwiegen - nur ein Teil der Risikofunktion wird parametrisiert -
angemessen: Interesse an Einfluss von Kovariaten, kein Interesse an Gesamtverlauf
Schätzmethode: partial-likelihood (vgl. hierzu Blossfeldet al 2007: 224ff.) Syntax und Ergebnisse einer Cox-Regression:...