Datenanalyse 06 - Ereignisdaten PDF

Title	Datenanalyse 06 - Ereignisdaten
Author	Julia Hein
Course	VL Datenanalyse
Institution	Universität Trier
Pages	11
File Size	668.8 KB
File Type	PDF
Total Downloads	102
Total Views	129

Preview

CLICK TO PREVIEW PDF

Summary

Zusammenfassung mit Mitschrift aus der sechsten Vorlesungseinheit (WS 2016/17)...

Description

Datenanalyse 05 -Ereignisdaten (20.12.2016)

Warum Ereignisdatenanalyse? soziologische Analysen beschäftigen sich mit Veränderungen – und der Erklärung dieser Veränderungen z.B. Übergang in die Arbeitswelt, vom Zustand kinderlos zu schwanger Gemeinsamkeiten:  diskrete (Ziel-) Zustände  entweder das eine, oder das andere (z.B. tot vs. lebendig)  Übergang zwischen den Zuständen prinzipiell immer möglich (zeitkontinuierlich)  Suche nach ursächlichen Prozessen o notwendige Bedingung: Ursache zeitlich vorgelagert (kausale Beziehung) o theoretische Modellierung und Messung o zur Überprüfung Veränderung der unabhängigen Variablen Ereignisdatenanalyse kommt ursprünglich aus der Versicherungsstatistik: Welche Faktoren sind bedeutsam dafür, dass bestimmte Ereignisse eintreten? Schwierigkeiten bei der Analyse von Querschnittsdaten Cross-sectional sample

Problemfelder: 1. kausale Prozesse 2. reziproke Effekte 3. Trennung von Alters-und Kohorteneffekten  Wird man im Alter religiöser oder unterscheiden sich die Kohorten in ihrer Religiosität? 4. Berücksichtigung historischer Effekte  Welche Auswirkungen haben historische Ereignisse auf die Entwicklung von Kindern/Jugendlichen? 5. Pfadabhängigkeit  diese Fragestellungen kann man mit diesen Modellen nicht testen Panel sample

Panel = Erhebung in bestimmten Rhythmen immer mit den gleichen Personen Problemfelder:  Informationen nur für den Erhebungszeitpunkt 

häufig Konzentration auf einzelne Kohorten o pairfam



o British Birth Cohort Study (März 1958) historische Effekte unterschiedlich im Lebensverlauf (Elder, 1974)



Veränderungen in Kovariaten nicht genau festgelegt (keine genaue Terminierung)



Fluktuationen nicht (immer) feststellbar

Event-Oriented Design

Problemfelder:  immer notwendig: retrospektive Erhebungen o Erinnerungsfehler



o unbekannte Informationen Survivor-Bias  retrospektiv können nur die Personen befragt werden, die ein Ereignis überlegt haben

 

generelle Befragungsprobleme EDA als Instrument der Lebensverlaufsanalyse

Beispiel für Survivor-Bias: In Studie von Rosenbaum wurden 80. Jährige zur Ehequalität ihrer eigenen Eltern befragt, die längst verstorben waren. Hier konnten jedoch selektiv nur Daten von Personen erfasst werden, die sich damals reproduziert haben und nun Kinder zum befragen haben. Ereignisdaten: Begriffe und Grundlagen Zensierungen im Überblick (Zensieren = Abschneiden)



rechtszensiert: zum Beobachtungszeitraum ist Ereignis (noch) nicht eingetreten  Besonderheit der Ereignisdatenanalyse: sie kann damit umgehen!



Linkszensiert: hierüber weiß man nichts, das Ereignis liegt ggf. vor dem Beobachtungszeitraum  Design-Problem: man könnte die Personen fragen, ob zuvor das Ereignis xy eingetreten ist



T=0 bis t=24 entspricht der Verweildauer  hier haben wir Informationen (Kovariatenstruktur)



Kovariatenstruktur und Verweildauer geben Aufschluss über den Verlauf und ermöglichen eine Schätzung der Übergangswahrscheinlichkeit

Schwierigkeiten klassische Analyseverfahren: ein Beispiel  

Rückfallquoten bei 430 entlassenen Strafgefangenen Daten: Beobachtung in einem 12-Monat-Zeitraum



Vorgehen: OLS-Regression (Ordinary Least Squares) auf eine Dummy-Variable „Rückfall ja“

Probleme:  OLS für dichotom abhängige Variable 

Dichotomisierung vernachlässigt viele Informationen



12-Monat-Zeitraum willkürlich

 Es macht ja einen Unterschied nach wie vielen Tagen eine Person rückfällig geworden ist (die Dichotomisierung ignoriert das jedoch)  Weist man dem Tag 365 die Zensierung zu? Was passiert dann mit Personen, die bis dahin nicht rückfällig wurden, aber möglicherweise genau einen Tag später? Lösungsmöglichkeiten:  Zensierungen als fehlende Werte 

Zensierungen mit Zuweisung des höchsten Wertes



selbst ohne Zensierung: Informationsverlust

Ereignisdaten: Begriffe und Grundlagen

Was interessiert: Übergangsrate  zur formalen Definition sind einige formale Klärungen nötig: o T ist eine Zufallsvariable, die die Ankunftszeit bis zum Ereignis wiedergibt



o T>0 die Wahrscheinlichkeit eines Übergangs im Zeitraum [t; t‘] ist dann: o Pr(t ≤ T < t‘│T≥ t), t < t‘ o Entspricht der Wahrscheinlichkeit, dass ein Ereignis im Zeitraum von t bis t’ eintrit

die Verteilung dieser Ankunftszeiten folgt einer Wahrscheinlichkeitsdichtefunktion f(t)

die Wahrscheinlichkeit einer ganz bestimmten Ankunftszeit ist dabei 0  ein konkreter Zeitpunkt wäre eine Linie stat einer Fläche unter der Kurve  daher benötigt man einen Zeitraum anstat eines Zeitpunktes F(t) ist die kumulierte Verteilungsfunktion der Ankunftszeiten und gibt die Wahrscheinlichkeit an, dass bis zum Zeitpunkt t ein Ereignis eingetreten ist Zum Verhältnis von f (t) und F (t):  Anhand der Dichtefunktion f (t) kann man sehen, wie sich die Wahrscheinlichkeit des Ereigniseintrits über die Prozesszeit verteilt 

Die Verteilungsfunktion F (t) gibt dagegen an, wie viele Fälle (Ereigniseintrite) kumuliert in Relation zu allen Fällen bisher aufgetreten sind

G(t) ist dann die Überlebensfunktion (survivor function) und es gilt:  G(t) = 1 –F(t) = Pr(T > t) von besonderem Interesse ist nun die bedingten Wahrscheinlichkeit des Übergangs: die Hazardrate - synonym: hazardrate, intensityrate, failurerate, transitionrate, riskfunction, mortalityrate Beispiel Hazardrate:

Hazardrate von 16% bei 29jährigen Frauen in Gruppe „stark religiös“ bedeutet, dass von 100 Frauen durchschnitlich 16 in der nächst folgenden Zeiteinheit heiraten. Definition Hazardrate: r (t) = f (t) / G(t)

-

-

Ereignisdatenanalyse als Verweildaueranalyse: Frage nach dem Zusammenhang zwischen der Verweildauer (im Beispiel oben „Alter der Frau“) und der Wahrscheinlichkeit des Ereigniseintrits Verweildauerabhängigkeit (d.h. exakte Verlaufsmuster der Hazardrate) sind ein wichtiges Thema in Ereignisdatenanalyse, da sich hieran die Wahl eines geeigneten ereignisanalystischen Modells orientiert.

bildliche Darstellung (Diekmann/Miter 1984: 41)

G(t) = Risikopopulation F (t) = die, bei denen das Ereignis aufgetreten ist r (t) = relativer momentaner Durchfluss Sterbetafelanalysen –survival analysis Grundidee: Zerlegung des Beobachtungszeitraums in Intervalle i [ai; bi] benutzt wird die Information, ob in einem bestimmten Intervall das Ereignis eingetreten ist und ob in diesem Intervall eine Zensierung beobachtet wird

Zensierung hier: aufhören etwas zu beobachten (bei Versicherungsdaten z.B. Versicherungswechsel einer Person) benötigte Informationen: ni:= Anzahl der Personen, die den Zeitpunkt ai erleben ci:= Anzahl der Personen, die im Intervall [ai; bi] zensiert werden di:= Anzahl der Personen, die im Intervall [ai; bi] ein Ereignis erleben(d = death) Berechnung verschiedener Größen: - Übergangswahrscheinlichkeit (bedingte Sterbewahrscheinlichkeit):

-

bedingte Überlebenswahrscheinlichkeit:

-

ni ‘ entspricht der Risikopopulation (risk set) aufgrund von Zensierungen ist die Risikopopulation nicht (immer) ni:

-

Überlebensfunktion Gi

-

die Dichtefunktion fi

die absolute Wahrscheinlichkeit, dass das Ereignis in dem betrachteten Intervall i eintrit

wobei hi der Intervalllänge entspricht

-

Hazardrate:

Die Schätzung der Hazardrate bezieht sich auf den Intervallmitelpunkt des Intervalls i

Sterbetafelanalysen

nicht immer liegt das Forschungsinteresse jedoch auf dem Verlauf entsprechender Funktionen – theoretisch ist man an Unterschieden zwischen Gruppen oder etwa Generationen interessiert (s.u.)

Sterbetafelanalysen sind hier nur eingeschränkt nutzbar, aber es besteht die Möglichkeit, Gruppenunterschiede zu untersuchen die Möglichkeiten dieses Verfahrens sind eingeschränkt - Zahl der Kovariaten bzw. Gruppenvergleiche stark eingeschränkt -

je nach Messung der Verweildauer (starke) Abhängigkeit von der Intervalllänge o Achtung: eigentlich müsste das Alter bei der Geburt des ersten Kindes genauer erfasst werden (Übergang sollte zu jedem Zeitpunkt möglich sein)

-

o Probleme bei der Datenerhebung zeitveränderliche Kovariate sind kaum zu berücksichtigen (z.B. Studienabschluss erlangt?)

-

metrische Kovariate sind kaum zu berücksichtigen

Was sind parametrische Verfahren? Probleme bei nicht-parametrischen Verfahren 1. Vergleiche zwischen Subgruppen unübersichtlich 2. zudem: Fallzahlproblem 3. Klassifizierung metrischer unabhängiger Variablen 4. Einfluss verschiedener unabhängiger Variablen sowie Moderations-und Suppressionsanalysen bei parametrischen Verfahren wird der genaue Verlauf der Hazardrate (und damit der anderen Funktionen) festgelegt - (teilweise) theoretische Modellierungen o Beispiel: Sichelfunktion und das Vergeben-Vergessen-Modell o Beispiel: Sichelfunktion und stayer-mover-Modelle  Stayer: Personen, die sich nie scheiden lassen



Mover: Personen, die sich konstant immer scheiden lassen  der Anteil dieser Personen sinkt mit der Zeit automatisch und damit steigt der relative Anteil der Stayer

Exponentialmodell einfachste Form der Parametrisierung: Exponentialmodell hier finden sich folgende Größen -

Dichtefunktion:

-

Survivor- oder Überlebensfunktion: Hazardfunktion:

r(t) = a  Funktion ist konstant

typischer Verlauf der Survivorfunktion:

zweiter und wichtigerer Teil:

Interpretation?

Alternative: piecewise constant exponential models Grundannahme: die Übergangsrate kann sich zwischen vorab definierten Intervallen unterscheiden, in den Intervallen ist sie dann konstant (piecewise constant eben!) piecewise constant exponential models: grapische Darstellung:

 Bis 20 fast keine Geburten, ab 40 auch fast keine Geburten mehr „The Times They Are A-Changing...“ – zeitveränderliche Kovariate -

Grundvorhaben ist die Untersuchung von Kausalität Kausalität kann nur mit Veränderungen untersucht werden viele interessierenden Größen ändern sich im Laufe der Zeit o in unserem Beispiel: Heirat beeinflusst Geburtenwahrscheinlichkeit o Frage: Erhöht das Verheiratetsein das Risiko einer Geburt o Modellierung?

Episodensplitung - die bisherige Beobachtungszeit wird unterteilt in eine Phase bis zur (ersten) Heirat und eine zweite Phase nach der ersten Heirat - für diese (neuen und mehr) Episoden wird dann wie bisher die Hazardrate bestimmt

weitere Parametrisierungen:  gerneralisierte log-logistische Modelle haben einen Vorteil: sie erlauben eine explizite Differenzierung zwischen Timing- und Niveaueffekten (s. Bespiel unten) - es sind viele weitere Formen der Übergangsrate denkbar:

 log-logistic hazard: Veränderung des b-Parameters: Form der Übergangsrate verändert sich Beispiele: Akademisierung von Frauen geht mit höherer Kinderlosigkeit einher   

2 Erklärungen: institutionelle Erklärung (Timing-Effekt) vs. Humankapitaleffekt (Niveaueffekt) institutionelle Erklärung: längere Ausbildungszeit, daher während der Ausbildung keine Kinder, danach aber schon  häte zur Folge, dass sich die Kurve nur verschiebt Humankapitaleffekt: Für Akademiker sind Kinder teurer, daher haben sie tatsächlich weniger (Niveaueffekt)

Cox-Regressionen Cox-Regressionen als semi-parametrisches Modell  im US-amerikanischen raum sehr verbreitet, während in deutschsprachigen Zeitschriften parametrische Modelle überwiegen - nur ein Teil der Risikofunktion wird parametrisiert -

angemessen: Interesse an Einfluss von Kovariaten, kein Interesse an Gesamtverlauf

Schätzmethode: partial-likelihood (vgl. hierzu Blossfeldet al 2007: 224ff.) Syntax und Ergebnisse einer Cox-Regression:...