Statistik Fortgeschrittene WS17 PDF

Title Statistik Fortgeschrittene WS17
Author Yuan Lin Qiu
Course Statistik für Fortgeschrittene
Institution Universität Wien
Pages 20
File Size 611.5 KB
File Type PDF
Total Downloads 95
Total Views 121

Summary

Download Statistik Fortgeschrittene WS17 PDF


Description

Notizen (Statistik für Fortgeschrittene) Multivariate* statistische Verfahren/ Methoden (*mit mehreren Variablen) 1) Multiple lineare Regression 

basiert auf: Allgemeines Lineares Modell



Analysen mit k > 1 Prädiktoren



für metrische Outcomes



für metrische u. dichotome (u. kategoriale/ polytome) Prädiktoren (zwei letztere per Verwendung v. Dummy-Codierung/ Dummy-Variablen)



Parameter: Kleinste-Quadrate-Methode, Signifikanz des Modells: F-Test, Signifikanz jedes einzelnen Prädiktors: t-Test (t-Wert); Maß für Zus.: β, erklärte Varianz: R²



Aufnahme von Prädiktoren ins Modell: Einschluss (forced entry), hierarchisch bzw. blockweise, schrittweise (vorwärts (selektierend) u. rückwärts (eliminierend))

2) Kovarianzanalyse (ANCOVA) 

basiert auf: Allgemeines Lineares Modell



Kontrolle von Drittvariablen (in varianzanalytischen Designs)



für metrische Outcomes



für metrische u. dichotome Prädiktoren



Verring. d. Resid.varianz, Elim. v. Konfundierg.; Lief. berein. Schätzer f. Präd.-Effekte, Steig. d. Power



spez. Vorauss.: Unabh./Unkorr. zw. Kovariate u. Prädiktor, Homogen. d. Steig. d. Regressionsgeraden

3) Logistische Regression 

basiert auf: Generalisiertes Lineares Modell



Analysen mit k Prädiktoren für dichotome Outcomes



für dichotome Outcomes



für metrische u. dichotome (u. kategoriale/ polytome) Prädiktoren (letztere per Zerlegung in Serie binärer Dummy-Variablen)



Parameter: Maximum-Likelihood-Methode, Signifikanz des Modells: LR-Test, Signifikanz jedes einzelnen Prädiktors: Wald-Test (z-Wert); Maß für Zus.: OR (bzw. exp(bj)), erklärte Varianz: keines (nur indirektes)



Aufnahme von Prädiktoren ins Modell: Einschluss (forced entry), hierarchisch bzw. blockweise, schrittweise (Kriterium: LR- od. Wald-Test)



abgesehen v. binomialer log. Regr.: multinomiale logistische Regression: Outcomes mit > 2 Ausprägungen

4) Moderation und Mediation 

im regressionsanalytischen Kontext



Moderation: Interaktionen (zw. 2 metrischen Prädiktoren/ zw. metrischem u. kategorialem Präd.)



Interaktion = Produkt der Prädiktoren



Haupt-/ Moderator-/ Interaktions-Effekte



Durchführung: Zentrieren v. metrischen Prädiktoren, Bildung des Produktterms, …, Regressionsanalyse



Mediation: indirekte Effekte durch Mediator-/ Dritt-Variable



Mediatorvariable = Produkt der Regressionskoeffizienten



direkte/ indirekte Effekte (partiell od. vollständig)



Durchführung: (Untersuchung über Pfadmodelle) Serie an Regr.analysen, Sobel-Test u. Bootstap-KIe

5) Multilevel-Modell (MLM) (bzw. Mehrebenenanalyse) 

hierarchical linear model / nested data model / random coefficient model / random effects model / random parameter model („Modell zufälliger Abweichungen“ bzw. „Modell zufälliger Effekte“)



bei hierarchischen Datenstrukturen (abhängigen Daten)



für metrische und nicht-metrische Outcomes



Modellierung von Kontextvariablen, Intraklassenkorrelation (ICC), zufällige Koeffizienten

6) PCA und EFA 

Hauptkomponentenanalyse (PCA) u. Exploratorische Faktorenanalyse (EFA)

Notizen (Statistik für Fortgeschrittene) 

zur Dimensionsreduktion



explorative Analysen zu Dimensionalität u. Ladungsmustern



latente Variablen, Komponenten u. Faktoren, Bestimmung der Faktorenanzahl, Rotation, Faktorscores

7) CFA und SEM 

Strukturgleichungsmodell (SEM) als allg. Rahmenmodell für komplexe statistische Analysen



konfirmatorisches Testen (Überprüfen) von Messmodellen (per Konfirmatorischer Faktorenanalyse (CFA)) u. Strukturmodellen

1) Einfache bzw. Multiple lineare Regression (beruht auf ALM = Allgemeines Lineares Modell)

[ Notiz, generell: verwende vzgsw. „Prädiktoren“ statt „UVs/ Faktoren/ Interventionen/ Treatment/ …“, „Outcomes“ statt „AVs/ …“! ] Intercept = Achsenabschnitt: Stelle, an der die Regressionsgerade die Y-Achse schneidet Slope = Anstieg der Regressionsgeraden: jener, wenn Prädiktor (X-Achse) um 1 Einheit zunimmt/ansteigt = Regressionskoeffizient standardisierter Slope-Parameter = Korrelation von X (Prädiktor) u. Y (Outcome) = Beta (β) (Anzahl: k Slope-Parameter, d.h. für jeden Prädiktor einen) Residuum = Fehler = individuelle Abweichung des beobachteten Wertes vom vorhergesagten Wert (in Richtung des Outcomes)

 Schätzung der Parameter: mittels Kleinste-Quadrate-Methode/Schätzung (sodass die Summe der Abweichungsquadrate/ Abweichungen/ Residuen möglichst klein ist)  Signifikanztest des Modells: F-Test: wenn signifikant, erklärt das Modell (und damit ein od. mehrere Prädiktoren) statistisch überzufällig die Variation im Outcome (testet prinzipiell, ob sich 2 Gruppen hinsichtlich ihrer Varianz signifikant unterscheiden)  t-Test (t-Wert/ T-Wert) (t² = F): Signifikanztest jedes einzelnen Prädiktors

Voraussetzungen (Multiple lineare Regression): UVs/Prädiktoren metrisch od. dichotom, AV/Outcome metrisch Linearität des Zusammenhangs Homoskedastizität (Varianzhomogenität der Residuen) NV (der Residuen) Unabhängigkeit der Residuen (= Beobachtungen) Multikollinearität nicht zu hoch (Prädiktoren korrelieren nicht zu hoch untereinander; Unabhängigkeit der Effekte der Prädiktoren untereinander) 7. Additivität (Effekte der Prädiktoren addieren sich) 1. 2. 3. 4. 5. 6.

Notizen (Statistik für Fortgeschrittene) 8. alle wesentlichen Prädiktoren berücksichtigt (im Modell)  Überprüfung der Voraussetzungen: im Wesentlichen durch Residuenanalyse, Unabhängigkeit der Beobachtungen alldgs. bereits aus Untersuchungsdesign schließbar, Multikollinearität ebenfalls (z.B. bei Abhängigkeit bzw. Hierarchie) bzw. VIF < 10 (1 = gar keine Korrelation) bzw. Toleranz (= 1 / VIF) > 0,1  bei Verletzung der Unabhängigkeit: Auswirkungen auf Standardfehler und auf Signifikanztests, weniger auf Parameterschätzer

SPSS-Output – Interpretation: Einfache lineare Regression: R²  Modell erklärt ..% der Outcome-Varianz Multiple lineare Regression: korrigiertes R² (besserer Schätzer als R², auf Populationsebene)  Modell erklärt ..% der Outcome-Varianz (auf Populationsebene)

overfitting = zu viele Prädiktoren wurden ins Modell inkludiert („Zuviel an Prädiktoren“) Methoden der Aufnahme von Prädiktoren ins Modell: 1. (per) Einschluss (forced entry/ selbst gewählt/ willkürlich) 2. hierarchisch/ blockweise (der Reihe nach/ nacheinander - in selbst festgelegter Reihenfolge, einzeln od. blockweise) 3. schrittweise: vorwärts (selektierend) od. rückwärts (eliminierend) (Reihenfolge über stat. Algorithmus festgelegt) Einschub - Basisinfo:  Typ-I-Fehler: H0 (Nullhypothese) wird verworfen, obwohl wahr  falsch positiver Outcome  Hinweis auf Zusammenhang, der in Wahrheit nicht existiert  in der Forschung: zu früh gefreut!, im medizinischen Fall: nochmal Glück gehabt! 

Typ-II-Fehler: H0 (Nullhypothese) wird nicht verworfen, obwohl falsch  falsch negativer Outcome  Hinweis darauf, dass kein Zusammenhang besteht, obwohl in Wahrheit schon einer besteht  in der Forschung: zu Unrecht enttäuscht!, im medizinischen Fall: bitter!

Bei Rückwärtselimination - im Ggs. zu - bei Vorwärtsselektion - werden weniger Fälle zu Unrecht ausgeschlossen bzw. weniger Fälle werden zu Unrecht gar nicht erst aufgenommen bzw. Typ-II-Fehler fällt geringer aus!! Maße zur Bestimmung, ob Ausreißer bedeutsam sind:  Cook-Distanz  Mahalanobis-Abstand  Zentrierter Hebelwert

Notizen (Statistik für Fortgeschrittene)

(siehe bei Bedarf auch: http://www.methodenberatung.uzh.ch/de/datenanalyse/zusammenhaenge/mreg.html )

2) Kovarianzanalyse (ANCOVA) (beruht auf ALM = Allgemeines Lineares Modell) ANCOVA Kovarianzanalyse: Kontrolle von (metrischen) Kovariaten (= Drittvariablen, die, potentiell, Einfluss auf den Outcome haben/ mit dem Outcome korreliert sind/ Konfundierung am Outcome bewirken/ Kontrollvariablen/ confounds)  Verringerung der Residualvarianz und Elimination von Konfundierung (konfundierender Variablen)*  Lieferung bereinigter Schätzer für Treatment-Effekte (durch Konstanthalten der Kovariate)*  Steigerung der Power (Effekt von Prädiktor/Treatment gewinnt an statistischer Macht/Power)*  *Voraussetzung: Unabhängigkeit zw. Kovariate und Prädiktor/Treatment, d.h. Kovariate korreliert nicht mit Prädiktor/Treatment, d.h. keine systemat. Unterschiede bezügl. der Kovariate bestehen zw. den Gruppen (was in experimentellen Designs mit randomisierter Gruppenzuteilung im Wesentlichen sichergestellt ist, da die Teilnehmer eben per Zufall den Gruppen bzw. Bedingungen des Prädiktors/Treatments zugeteilt werden; in nicht-experimentellen Studien gibt es keine vergleichbare Kontrolle konfundierender Variablen)

Inklusion der Kovariate reduziert die Residualvarianz in ANCOVA, wenn Kovariate und UV unkorreliert sind (i.d.R. durch experimentelles Design)

Notizen (Statistik für Fortgeschrittene)

Inklusion der Kovariate reduziert die Residualvarianz, aber auch die durch die UV erklärte Varianz, wenn Kovariate und UV korreliert sind (ggf. bei nicht-experimentellen Design)

 ansonsten macht ANCOVA schlicht dasselbe wie Regression ( bestimmt unique effect jedes Prädiktors, unter Kontrolle aller anderen Prädiktoren; („zuvor unbereinigter“) Effekt des Prädiktors wird dann um Effekte der anderen Prädiktoren i. A. vermindert)  wird „klassisch“ in experimentellen Designs mit randomisierter Gruppenzuteilung eingesetzt (wie z.B. in Treatmentstudien)  wenn Prädiktor kein Treatment darstellt, kann ANCOVA auch mit korrelierter Kovariate und Prädiktor sinnvoll sein: in nicht-experimentellen Studien (Beobachtungsstudien) (Anwendung dann wie multiple Regression)  wenn man an Treatment-Effekten interessiert ist, in nicht-randomisierten Studien, mit korrelierter Kovariate und Prädiktor: müssen aus vorhandenen Gruppen vergleichbare Teilgruppen gezogen werden, die sich in Kovariaten nicht unterscheiden: hierfür: Verwendung von propensity scores und propensity score matching  SPSS-Outputs siehe Folien!  Voraussetzungen (ANCOVA) (im Wesentlichen die der MLR u. der ANOVA + 1 bzw. 2 spezifischen Voraussetzgn.!) (ANOVA)  AV metrisch  Unabhängigkeit der Beobachtungen/ Gruppen  Homoskedastizität/ Varianzhomogenität  NV der Daten innerhalb der Gruppen/ der Residuen (Multiple lineare Regression) 1. UVs/Prädiktoren metrisch od. dichotom, AV/Outcome metrisch 2. Linearität des Zusammenhangs 3. Homoskedastizität (Varianzhomogenität der Residuen) 4. NV (der Residuen) 5. Unabhängigkeit der Residuen (= Beobachtungen) 6. Multikollinearität nicht zu hoch (Prädiktoren korrelieren nicht zu hoch untereinander; Unabhängigkeit der Effekte der Prädiktoren untereinander) 7. Additivität (Effekte der Prädiktoren addieren sich)

Notizen (Statistik für Fortgeschrittene) 8. alle wesentlichen Prädiktoren berücksichtigt (im Modell) + 1. Unabhängigkeit der Kovariate von Treatment/ Prädiktor (keine Korrelation zw. Kovariate und Prädiktor; keine systematischen Unterschiede bezügl. d. Kovariate zw. den Gruppen) ( zumindest für bereinigte Treatmenteffekte) + 2. Homogenität der Steigung der Regressionsgeraden (Slopes) (!) (d.h., dass Kovariate mit Outcome in allen Gruppen in ähnlichem Ausmaß korreliert)* (*ansonsten: Typ-I-Fehlerniveau u. Testmacht u.U. beeinträchtigt) (*prüfbar über direkte Modellierung e. Wechselwirkung zw. Gruppe u. Kovariate  nicht signifikant  Homog.)  ANCOVA funktioniert auch in mehrfaktoriellen Designs (mit mehreren Prädiktoren) und Designs mit abhängigen Faktoren (Prüfung der Voraussetzungen dann alldgs. komplexer)  Kovariate: (norm.w.) metrisch, können aber auch dichotom sein (s. Lösung bei MLR)

3) Logistische Regression (beruht auf GLM* = Generalisiertes Lineares Modell/ Verallgemeinertes Lineares Modell) (*im Engl.: Abk. „GLM“: sowohl für „General“ als auch „Generalized“, also auch für ALM!) Logistische Regression/ Logit-Modell  für den Fall, dass Outcome dichotom (bounded)  ALM geht davon aus, dass Outcome metrisch (unbounded)  Anwendung des ALM auf dichotome Outcomes würde folg. Voraussetzungen verletzen:  NV der Residuen  (bei dichotomen Outcomes: bimodale Verteilung)  Linearität des Zusammenhanges  (unsinnige Ausprägungen)  (Lösung bzw. Methode der logistischen Regression:) Transformation des dichotomen Outcomes auf unbeschränkte Skala  durch Verwendung einer logit-Funktion (link-Funktion)  eine logit-Funktion ist die Umkehrfunktion der logistischen Funktion/ „logistischen Transformation“ bzw. eine logistische Funktion die Umkehrfunktion der logit-Funktion  die logit-Funktion bzw. der Logarithmus der odds liefert die log-odds (= logarithmierte odds bzw. logarithmierte odds-ratios) = logits (bzw. stellen diese dar)  Logarithmus = Verhältniszahl, mit der man eine andere Zahl potenzieren muss, um eine vorgegebene Zahl zu erhalten  odds = (dt.) Chancen = Quotienten von Wahrscheinlichkeit u. Gegenwahrscheinlk.  logit = natürlicher Logarithmus von odds = natürlicher Logarithmus einer Chance, und zwar der Wahrscheinlichkeit p durch Gegenwahrscheinlichkeit 1 – p = natürlicher Logarithmus des Quotienten einer Wahrscheinlichkeit mit seiner Gegenwahrscheinlichkeit  das Chancen-Verhältnis (Odds-Ratio) stellt nun das Zusammenhangsmaß dar

Notizen (Statistik für Fortgeschrittene)  exponenzierte Regressionskoeffizienten exp(bj) sind als Odds Ratio (OR) interpretierbar und zeigen an, wie stark sich die Chancen für Y = 1 ändern, wenn Prädiktor um 1 Einheit steigt  Odds-Ratios (ORs):  liegen zw. 0 u. ∞  OR = 1 beziffert Gleichbleiben der Chance für Y = 1 (kein Effekt)  OR > 1 beziffert Zunahme der Chance für Y = 1  

OR < 1 beziffert Abnahme der Chance für Y = 1 bei logistischer Regression liefert der Kehrwert, also 1/OR: OR für umgepolten Outcome (also Y=0) sowie OR für umgepolten Prädiktor (also bei dichotomen Prädiktoren: vertauschte Gruppen 0 und 1, und bei metrischen Prädiktoren: umgedrehte Richtung)

 Schätzung der Parameter: mittels Maximum-Likelihood-Methode (ML) (angepasste Verteilung: Bernoulli-Verteilung) (statt mit Kleinste-Quadrate-Methode, wie bei Multipler linearen Regression)  Algorithmus bestimmt die (für die Daten) wahrscheinlichsten Parameter und minimiert die log-likelihood (logarithmierte Likelihood) für den Abgleich von beobachteten und vorhergesagten Werten  nur indirekte Maße erklärter Varianz unter ML(!)  Signifikanztest des Modells: Likelihood-Ratio-Test (LR-Test) (ersetzt analogen F-Test in Multipler linearer Regression): wenn signifikant, erklärt das Modell (und damit ein od. mehrere Prädiktoren) statistisch überzufällig die Variation im Outcome (testet prinzipiell, ob sich 2 Gruppen hinsichtlich ihrer Varianz signifikant unterscheiden)  Signifikanztest jedes einzelnen Prädiktors: Wald-Statistik/ Wald-Test (z-Wert) (in Multipler linearer Regression: t-Wert)

 Voraussetzungen (Logistische Regression) (im Wesentlichen die der MLR) 1. UV/Prädiktoren (beliebig) metrisch od. dichotom od. kategorial (mit > 2 Ausprägungen) (in letztem Fall als Dummy-Variablen codiert bzw. in eine Serie dichotomer Dummy-Variablen zerlegt), AV/Outcome dichotom (od. für multinomiale logistische Regression auch kategorial, mit mehr als 2 Ausprägungen) 2. Linearität des Zusammenhangs zw. Prädiktoren und logit des Outcomes (!!! nicht zw. Prädiktoren und Outcome direkt !!!) 3. Homoskedastizität (Varianzhomogenität der Residuen) 4. NV (der Residuen) (Residuen sind bimodal verteilt!) 5. Unabhängigkeit der Beobachtungen

Notizen (Statistik für Fortgeschrittene) 6. Multikollinearität nicht zu hoch (Prädiktoren korrelieren nicht zu hoch untereinander) 7. Additivität (Effekte der Prädiktoren addieren sich) 8. alle wesentlichen Prädiktoren berücksichtigt (im Modell) 9. keine (bedeutsamen) Ausreißer 10. Stichprobe groß genug (u.a. gegen incomplete information u. complete separation) 11. AV (inhaltlich) richtig kodiert (gewünschtes Ereignis mit 1 kodiert)  Überprüfung der Voraussetzungen: im Wesentlichen durch Residuenanalyse, Unabhängigkeit der Beobachtungen ist alldgs. bereits aus Untersuchungsdesign schließbar, Multikollinearität ebenfalls (z.B. bei Abhängigkeit bzw. Hierarchie) bzw. VIF < 10 (1 = gar keine Korrelation) bzw. Toleranz (= 1 / VIF) > 0,1, Unauffälligkeit der (bimodalen) Verteilung (der Minima u. Maxima) (soll unauffällig aussehen, ohne einflussreiche/bedeutsame Ausreißer) bzw. (eben) Unauffälligkeit der Cook( .90, sollten daher dennoch exkludiert werden)

 Prüfung (ob Variablen ausreichend miteinander korrelieren) mittels K-M-O-Test (prüft Interkorrelationsmatrix R) (0: zu gering; >.5: passt!; 1: (zu) perfekt)

PCA (Principal Components Analysis) – Hauptkomponentenanalyse -

Abbildung von Interkorrelationsmatrix R (quadratische, symmetrische u. reele Matrix) (Variablen) durch Ladungsmatrix Λ (Komponentenmatrix) (Komponenten) (durch Matrixmultiplikation bei vorangehendem Transponieren von Λ) (R = ΛΛT)

-

Vereinfachung, indem alldgs. nicht alle Komponenten extrahiert werden, sondern nur eine Teilmenge, gemäß Abbruchkriterium (welches sich jwls. auf den Diagonalfit bezieht und Eigenwerte von R heranzieht): o Scree-Test („Ellbogenkriterium“) o Kaiser-Guttman-Kriterium o Parallelanalyse

-

Ermittlung von Komponentenscores

-

ggf.: Rotation: o Varimax o Quartimax o Oblimin

-

Exklusion von Variablen mit niedriger Kommunalität (Anteil erklärter Varianz je Variable) und Ladung

EFA (Exploratory Factor Analysis) - Exploratorische Faktorenanalyse

Notizen (Statistik für Fortgeschrittene) explorative Faktorenanalyse: dient der Erkundung verdeckter Strukturen einer Stichprobe (latenter Variablen) bzw. der Dimensionsreduktion -

beruht auf Messmodell, das gemeinsame Faktoren in Variablen identifiziert und von Messfehlern (oder spezifischen Faktoren) differenziert Faktoren der EFA erklären nicht die gesamte beobachtete Varianz, sondern die den Variablen gemeinsame Varianz, bereinigt um Messfehler 3 Methoden zur Bestimmung von Faktorscores: o Regressionsmethode o Bartlett-Werte o Anderson-Rubin-Methode (AR)

7) CFA und SEM

Notizen (Statistik für Fortgeschrittene) SEM (Structural Equation Modeling) – Strukturgleichungsmodell -

erlaubt konfirmatorische Testung von Zusammenhangsmodellen  Formulierung und Testung von Messmodellen (siehe CFA!)  Formulierung und Testung von Strukturmodellen: Pfadanalysen: (Untersuchung wechselseitiger Zusammenhänge von Variablen)  Formulierung und Testung von Mess- u. Strukturmodell-vereinigendem Modell (Untersuchung von Zusammenhängen auf latenter Ebene)

-

erlaubt auch Modellierung von Mittelwerten

-

kann auch als Rahmenmodell für ALM dienen

-

strukturprüfend konfirmatorischer (bestätigender) Charakter statistisches Modell, das das Schätzen und Testen korrelativer Zusammenhänge zwischen Prädiktoren (UVs) und Outcome (AV) sowie den verborgenen Strukturen dazwischen (latenten Variablen) erlaubt zur Überprüfung, ob die für das Modell angenommenen Hypothesen mit den gegebenen Variablen übereinstimmen

-

Spezialfall des Strukturgleichungsmodells: CFA (Confirmatory Factor Analysis) - Konfirmatorische Faktorenanalyse -

erlaubt konfirmatorische Testung von Messmodellen  Formulierung und Testung von Messmodellen: o ...


Similar Free PDFs