Begriffe-statistik PDF

Title Begriffe-statistik
Course Statistik
Institution Universität Salzburg
Pages 11
File Size 272.1 KB
File Type PDF
Total Downloads 29
Total Views 187

Summary

Zusammenfassung von prüfungsrelevanten Begriffen und deren Bedeutung...


Description

Begriffe

Intercept Ist der mathematische Startwert in der linearen Regression. Ist der Punkt an der die Regressionsgerade die Y-Achse schneidet. Es ist ein Parameter, der in der Regressionsgerade errechnet wird und wird als a bezeichnet. Korrigiertes R² Problem des normalen R²: Bei Hinzunahme von UVs wird es sich nie verschlechtern, selbst dann, wenn nur ein Scheinzusammenhang besteht. Deshalb sollte in der multiplen Regressionsschätzung stets das Korrigierte R² verwendet werden, weil die stetige Erhöhung des R² bei Hinzunahme neuer Variablen kompensiert wird. Dummy- Codierung Die Regressionsanalyse setzt ein metrisches Skalenniveau aller Variablen voraus. Nominale und ordinale Daten können nur mittels einer Dichotomisierung verwendet werden. Es werden k-1 DummyVariablen gebildet und jede in Bezug auf eine Referenzkategorie interpretiert, die auch gleichzeitig der Startwert ist. Standardisierte Koeffizienten Die standardisierten Regressionskoeffizienten " (auch Beta-Werte genannt) ergeben sich aus einer linearen Regression, in der die unabhängigen und abhängigen Variablen standardisiert worden sind, das heißt der Mittelwert gleich Null und die Varianz gleich Eins gesetzt wurde. Sie können auch direkt berechnet werden aus den Regressionskoeffizienten der linearen Regression:

Misst Einflussstärke bei multipler Regression; Ist unabhängig von der Maßeinheit ! Vergleich von Einflusssträken und Prädiktoren Unstandardisierte Koeffizienten A und b: Keine Einflussstärke messbar; Können zur inhaltlichen Schätzung von y- Werten herangezogen werden Unabhängig von Streuungen, Vergleich über Stichproben möglich ! Regressionsgerade wird dadurch abgeleitet, gibt Abweichungen um eine empirische Einheit an Beide Koeffizienten geben Aufschluss über die Signifikanz des Einflusses Verdeutlichen Startwert und Steigungskoeffizienten Residuen Durch das Modell nicht erklärte Varianz = Anteile, die nicht durch UVs beeinflusst sind Schrittweise Prozedur meint die Schrittweise Regression und ist eine automatische Auswahlprozedur. Das Vorgehen ist wie folgt: Aufnahme des am höchsten mit Y in Zusammenhang stehenden Prädiktors. Auspartialisierung der verwendeten X-Variablen bei allen anderen Prädiktoren, Aufnahme des nächsten Prädiktors. Die UV wird von der AV bereinigt. Aufnahme von weiteren Prädiktoren wird vorgenommen, bis der Zuwachs in R² nicht mehr signifikant ist.

Partialkorrelation Vorgehensweise zur „Bereinigung“ von Scheinkorrelationen, bzw. Methode um „wahren“ Einfluss einer Variable auf die AV trotz Hinzunahme anderer UVs herauszufiltern. Der Koeffizient entsteht aus der unerklärten Streuung von zwei Regressionsanalysen, bei denen der Einfluss von x und y auf Z gerechnet wurde, dann der Einfluss von Z auf die beiden Variablen. Moderatorvariable Ist eine Variable Z, die den Einfluss von X auf Y beeinflusst. In der Sprache experimenteller Designs wird mit M. eine Bedingung bezeichnet, unter der eine bestimmte Kausalbeziehung auftritt oder nicht auftritt (oder unterschiedlich stark ausgeprägt ist). Eine M. entspricht im Kontext multivariater statistischer Analyseverfahren einem Interaktionseffekt. Sequentielle Regressionsanalyse Die schrittweise Regression ist eine besondere Variante, die es ermöglicht, die „Zusammensetzung“ der Modellgüte besser nachzuvollziehen. Bei der schrittweisen Regression werden nicht alle Prädiktoren gleichzeitig betrachtet, sondern geordnet nach der Größe ihrer Erklärungskraft in das Modell aufgenommen. Mit dieser Vorgehensweise hilft die schrittweise Regression dabei, ein möglichst „sparsames“ Modell zu identifizieren, d.h. mit möglichst wenigen Variablen möglichst viel Varianz in der abhängigen Variable zu erklären. Auspartialisieren von Drittvariablen Man rechnet bei beiden Variablen X und Y den Einfluss von Z heraus; Der Zusammenhang der kontrollvariable auf X und Y wird berechnet mittels einer linearen Regression. Der partielle Korrelationskoeffizient wird aus der unerklärten Streuung (Residuen) dieser beiden Regressionsschätzung berechnet. Der partielle Korrelationskoeffizient zeigt uns den bereinigten Einfluss der angenommenen UV auf die AV unter Berücksichtigung der eingegebenen Kotrollvariablen (nullter Ordnung) Mediatorvariable Ist eine intervenierende Variable zwischen X und Y. Der Zusammenhang zwischen X->Y führt über Z, jedoch weiterhin ein signifikanter Einfluss von X->. Dies nennt man den partiellen Mediationseffekt. Totaler Mediationseffekt: Einfluss von X- > Y führt vollständig über Z. Grand mean centering Damit ist die sequentielle Regressionsanalyse gemeint, die auch als hierarchische Regression bezeichnet wird. Dabei werden einzelne Variablen nach theoretischen Gesichtspunkten unterschiedlich behandelt. Je nach argumentierter Kausalität der Einflüsse werden Prädiktoren in unterschiedlicher Reihenfolge aufgenommen. Es erfolgt eine Zentrierung um den Gesamtmittelwert Interaktionseffekt Ein Interaktionseffekt bezeichnet nicht-additive Effekte zweier oder mehrerer unabhängiger Variablen in Regressionsmodellen. Das bedeutet, dass für die durch den Beobachtungsraum repräsentierte Ereignismenge angenommen wird, dass die Wirkung der Ausprägungen einer dieser Variablen von den Ausprägungen der jeweils andere(n) Variable(n) abhängt. Maximum-Likelihood- Schätzung Parameter B0 und B1 in der logistischen Regression werden nicht mit OLS-Methode sondern mit dem Maximum Likelihood Verfahren geschätzt. Optimale Schätzwerte: Ermittlung der beobachteten YWerte für einzelne X-Werte mit höchstmöglicher Wahrscheinlichkeit. Parameter-Schätzwerte lassen

sich nicht aus der Gleichung ableiten, Schätzung muss iterativ (trial und error) erfolgen. Wenn sich Wahrscheinlichkeit nicht mehr steigern lässt, wird Iteration abgebrochen. ODDS- ratio Das Quotenverhältnis, auch Odds Ratio, Odds-Verhältnis, Kreuzproduktverhältnis oder Chancenverhältnis genannt, ist eine statistische Maßzahl, die etwas über die Stärke eines Zusammenhangs von zwei Merkmalen aussagt. Es ist damit ein Assoziationsmaß, bei dem zwei Odds in der logistischen Regression miteinander verglichen werden. Logistische Funktionskurve Damit ist die binomiale logistische Regression für dichotomische abhängige Variablen gemeint. Die unabhängigen Variablen können dabei ein beliebiges Skalenniveau aufweisen, wobei diskrete Variablen mit mehr als zwei Ausprägungen in eine Serie binärer Dummy-Variablen zerlegt werden. Entlogarithmierte Regressionskoeffizienten Da durch Darstellung der ODDS in LOGITS (Logarithmiert) nicht in Richtung bzw, Wahrscheinlichkeiten interpretierbar ist, müssen diese wieder enlogarithmiert werden, es erfolgt eine Rücktransformation und eine Umformung der Gleichung. Durch entlogarithmierten Effektkoeffizienten (2,718b1) erhält man neues inhaltliches Maß zur Beschreibung der Einflussstärke ➔ Veränderung des Wahrscheinlichkeitsverhältnisses, wenn sich X-Prädiktor um eine empirische Einheit vergrößert Likelihood- ratio- Test Es wird geprüft ob ML-Schätzung mit Prädiktoren signifikant besseres Ergebnis als ohne Prädiktoren (nur AV ohne Prädiktoren) erreicht Einfache Berechnung des G-Wertes, Subtraktion des -2LL Werts des Prädiktorenmodells von Wert des Null-Modells ➔ Methode zur Modellevalution der logistischen Regressionsanalyse Pseudo- r² Geben über die Bedeutung des Modells Auskunft; Jedoch „Pseudo“-Koeffizienten, weil diese nichts über „erklärte Varianz“ aussagen! Es wird Prozentanteil der Verbesserung des Prädiktorenmodells im Vergleich zum Schätzmodell berichtet Beide Werte werden mit Hilfe der G-Statistik (LL (0) – LL (P) berechnet Durban- Watson- Statistik Mittel zur Diagnose von Residuenunabhängigkeit. Enthält lineare Regression mit Logit- Werten und Analyse der Autokorrelation.

Konditionsindex Ist ein Maß zur Beurteilung der Kollinearität des Gesamtmodels. Er wird auf Basis der Eigenwerte erreichnet. Je mehr UVS korrelieren, desto höher ist die erste Hauptkomponente. Werte zwischen 10 und 30 deuten auf mittlere Kollinearität, > 30 auf gravierende Kollinearität (großes Problem). Normalverteilung der Residuen Bei der klassischen linearen Regression wird eine Normalverteilung der Residuen unterstellt. Die MlSchätzung überprüft in der logistischen Regression auf Ausreißer.

Heteroskedastizität = (Residuen)-Varianzheterogenität bedeutet unterschiedliche Streuung innerhalb einer Datenmessung. Wenn die Varianz der Residuen (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der anderen (Prädiktor)-Variablen signifikant unterschiedlich ist, liegt Heteroskedastizität vor, gewünscht ist allerdings Homoskedastizität. Die Streuung der Punkt um die Gerade wird nach rechts hin größer. Toleranzwert Ist ein statistischer Indikator zur Beurteilung der Multikollinearität. Der Toleranzwert verdeutlicht wie viel eine Variable durch andere Variablen determiniert ist. Der Wert ist zwischen 0 und 1 standardisiert. Unter 0,25 besteht ein Kollinearitätsproblem, unter 0,1 ein sehr großes. Der VIF-Wert wäre der Kehrwert des Toleranzwertes und sollte nicht über 4 bzw. 10 hinausgehen. Designgewicht I st e in e Ge w ic h t un g be i Be v öl k er u n gs u mf r ag e n u nd k or r ig i e rt u n t er s ch i ed l ic h e Auswahlwahrscheinlichkeit bei mehrstufigen Zufallsstichproben, wie beispielsweise bei Europaumfragen, in dem eine unterschiedliche Stichprobenqualität besteht. Unterschiedliche Auswahlwahrscheinlichkeiten werden durch Designgewichtung in einzelnen Ländern kompensiert. Je näher die Designgewichtung bei 1 liegt, desto geringer sind Verzerrungen in der Zufallsauswahl gegeben Populationsgewicht Ist eine Gewichtung bei Bevölkerungsumfragen. Wird benötigt um zB beim ESS eine Aussage über das gesamte Europa treffen zu können. Da in jedem Land gleich viele Personen befragt werden, dies jedoch nicht der Relation der Bevölkerungen entspricht wird hier gewichtet Datenaggregation Rechnen mit aggregierten Individualdaten (z.B. Mittelwerten) auf Länderebene. Indexbildung Die Indexbildung ist eine Zusammenfassung von mehreren Einzelindikatoren zu einer Variable. Ein Beispiel wäre die soziale Schichtung, in der ich Einkommen, Bildung und Beruf zusammenfüge. Weiterhin wird es bei der Werteforschung angewendet.

Korrelationsmatrix Als Kovarianzmatrix = die Matrix aller paarweisen Kovarianzen der Elemente eines Zufallsvektors. Insofern verallgemeinert dieser Begriff den Einfluss der Varianz einer eindimensionalen Zufallsvariable auf eine mehrdimensionale Zufallsvariable. Die Kovarianzmatrix enthält Informationen über die Streuung eines Zufallsvektors und über Korrelationen zwischen dessen Komponenten. Axiom

Ein Axiom ist ein Grundsatz einer Theorie, einer Wissenschaft, oder eines axiomatischen Systems, der innerhalb dieses Systems nicht begründet oder deduktiv abgeleitet wird. = Theoretische Grundannahmen Klassische Testtehorie Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. Daher wird sie oft auch als Messfehlertheorie bezeichnet. Die klassische Testtheorie versucht zu klären, wie, ausgehend von einem Testwert einer Person, auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals geschlossen werden kann Reliabilität Die Reliabilität ist ein Maß für die formale Genauigkeit bzw. Verlässlichkeit. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede und nicht durch Messfehler des gemessenen Merkmals erklärt werden kann. Hochreliable wissenschaftliche Ergebnisse sind nahezu frei von Zufallsfehlern, d.h. bei Wiederholung eines Experimentes unter gleichen Rahmenbedingungen würde das gleiche Messergebnis erzielt. Reliabilität ist also eine Voraussetzung für die Replizierbarkeit von Ergebnissen unter gleichen Bedingungen. Validität Gültigkeit bzw. Belastbarkeit von Annahmen. Validität ist (abgestuftes) Gütekriterium für die Belastbarkeit einer bestimmten Aussage. Im Rahmen empirischer Untersuchungen bezieht sich Validität aber auch auf die Güte der Operationalisierung der in den Kausalmodellen beschriebenen einzelnen Faktoren, den Konstrukten. Validität ist also einerseits die Belastbarkeit der Operationalisierung („Inwieweit misst das Testinstrument das, was es messen soll?“), andererseits die Belastbarkeit der auf den Messungen beruhenden Aussagen oder Schlussfolgerungen („Inwieweit trifft es zu, dass X Y beeinflusst?“). Likert- Skala Die Likert-Skala (nach Rensis Likert) ist ein Verfahren zur Messung persönlicher Einstellungen, die mittels so genannter Items abgefragt werden. Itemschwierigkeit Begrifflichkeit entstammt ersten Anwendungen bei Leistungstests. Schwierigkeit = Anteil der Probanden, die Aufgabe „lösen“. Bei Likert-Skalierung kann „Schwierigkeit“ über Mittelwert, Streuung und Verteilung beurteilt werden.

Trennschärfe (Korrigierte) Korrelation des Items mit der Gesamtskala: Wie gut spiegelt sich Gesamtskala in Item wider? Gleiche Interpretation wie bei Korrelationen (r>0,5 gefordert) Re- Test- Reliabilität Meint, dass Messinstrumente bei wiederholter Messung unter gleichen Bedingungen auch das gleiche Ergebnis produzieren müssen. Dieses Verfahren ist dann geeignet, wenn angenommen werden kann, dass die entsprechende Eigenschaft konstant bleibt. Cronbach alpha

Ein Maß zur Berechnung der internen Konsistenz einer aus mehreren Items zusammengesetzten Skala. Interne Konsistenz bedeutet, dass die einzelnen Items mit der Gesamtheit der übrigen Items zusammenhängen, und gilt als Maß der Reliabilität der Skala. Explorative Faktorenanalyse Verfahren zur Erfassung mehrdimensionaler Merkmale/ Konstrukte: Explorativ: a priori keine fixen Annahmen über Variablenstruktur ! Ausgehend von Ergebnissen können Hypothesen formuliert werden, welche Faktoren den eingesetzten Variablen zugrunde liegen Konfirmatorische Faktorenanalyse Nicht Datenreduktion als Ziel der Analyse, sondern Untersuchung eines theoretisch fundierten Modells auf Übereinstimmung mit den empirischen Daten. Modellannahme: Indikatoren laden ausschließlich auf einem bestimmten Faktor im Gegensatz zur explorativen, wo Itemladungen auf alle Faktoren gemessen werden Hauptkomponentenanalyse Bei einer Hauptkomponentenanalyse versucht der erste Faktor die meiste Varianz aus allen Items zu erklären. Der zweite Faktor wird im 90°Winkel zum zweiten Faktor gebildet, weil bei der PCAAnalyse von unabhängigen Dimensionen ausgegangen wird (Items und Korrelationen werden als Faktoren gesehen) Barletts-Test auf Sphärizität Prüft die Nullhyptothese, dass in der GG alle Korrelationen den Wert 0 aufweisen. Ziel ist ein signifikantes Ergebnis. Bei größeren Stichproben werden sich stets signifikante Ergebnisse finden, Test ist dadurch nur begrenzt aussagekräftig. Der Wert des Barletts Test im Feld Kaiser-Meyer-Olkin zeigt an, ob die Daten sich für die Faktorenanalyse eignen. Der Werte sollte mindestens über 0,700 liegen, dann besteht eine mittlere Eignung. Kommunalität Ist eine Messgröße, die sich auf einzelne Items bezieht. Die Kommunalität ist die Summe der quadrierten Faktorenladungen über alle Faktoren. Wie viel % der Streuung eines Items wird durch Faktoren erklärt, wie viel % bleit unerklärte Restvarianz.

KMO- Wert Gibt an, ob ein Datensatz für eine Faktorenanalyse geeignet ist. kann Werte zwischen null und eins annehmen, sollte > 0,6 sein. Basiert auf partiellen Korrelationen zwischen Itempaaren. Wird gemeinsame Streuung durch Faktoren bestimmt, sollte partielle Korrelationen gering ausfallen Nach Formel (g emei nsam er Varian zant eil all er Variab len / gemei nsam er Varian zant eil + Partialkorrelationen) resultiert ein größerer Wert bei niedrigen Partialkorrelationen Eigenwert Ist ein Wert in der Analyse der Varianzaufklärung. Der Eigenwert zeigt an, wieviel ein Faktor an Items beinhaltet. zB 3 -> es werden 3 Items erklärt. Der Eigenwert muss über 1 sein, damit es als Faktor gilt. Kaiser- Guttman- Kriterium Der Eigenwert liefert einen wichtigen Hinweis, wie viele Faktoren (unabhängige Dimensionen) bei den verwendeten Items extrahiert werden sollten Ein Faktor mit einem Eigenwert < 1 würde weniger Varianz erklären als ein verwendetes Item. Regel der Auswahl von Faktoren bei einem Eigenwert > 1 = Kaiser-Guttmann Kriterium. Screeplot Im Scree-Test werden die Eigenwerte in der Hauptkomponentenanalyse grafisch illustriert. Es wird nach einem bedeutsamen Eigenwerteabfall (Knick im Screeplot) gesucht. Knick(e) > 1 werden in Analyse einbezogen Varimax- Methode Varianz der quadrierten Ladungen pro Faktor wird maximiert. Hohe Varianz bei hoher bzw. niedriger Ladung der Items. Ladungszahl der Items (a) entspricht Korrelation des Items mi dem jeweiligen Faktor. ! Ziel ist Einfachstruktur (klare Identifizierung der Items bei einzelnen Faktoren) Faktorwerte Ein Faktor kann insgesamt interpretiert werden, wenn mindestens vier Items eine Ladung > 0,60 aufweisen. Die am höchsten ladenden Items sind die „Markiervariablen“ für die Interpretation des Faktors. Eine Faktorladung von 0,40 ist der untere Grenzwert für Faktorladungen, die berücksichtigt werden. Ungerichtete Hypothese Unterstellen lediglich einen Unterschied zwischen den verglichenen Kennwerten. Dabei ist egal, ob dieser Unterschied nun nach oben oder nach unten gerichtet ist. Beispiel H0: Frauen und Männer unterscheiden sich nicht im Ausmaß der Fremdenfeindlichkeit. Beispiel H1 (ungerichtet): Es gibt einen Unterschied zwischen Frauen und Männern im Ausmaß der Fremdenfeindlichkeit.

Gerichtete Hypothese

Gerichtete Hypothesen unterstellen einen Unterschied zwischen den untersuchten Kennwerten in eine bestimmte Richtung. Beispiel H1 (gerichtet): Männer weisen ein höheres Ausmaß an Fremdenfeindlichkeit auf als Frauen. Unterschiedshypothese Eine Unterschiedshypothese ist eine Hypothese, die eine Aussage über die Unterschiede zwischen zwei (oder mehreren) Gruppen hinsichtlich der Merkmalsausprägungen eines Merkmals trifft Zusammenhangshypothese Eine Zusammenhangshypothese ist eine Hypothese, die eine Aussage über Zusammenhänge zwischen den Merkmalsausprägungen zweier (oder mehrerer) Merkmale in einer Gruppe trifft Standardfehler des Mittelwerts Die Streuung der Stichprobenkennwerteverteilung heißt Standardfehler des Mittelwerts. Mit seiner Hilfe lässt sich die Genauigkeit der Schätzung des Populationsmittelwertes beurteilen. Er ist definiert als die Streuung in einer Verteilung von Mittelwerten aus gleich großen Zufallsstichproben einer Population. T- Verteilung Wahrscheinlichkeitsverteilung; besagt, dass die standardisierte Schätzfunktion des StichprobenMittelwerts normalverteilter Daten nicht mehr normalverteilt, sondern t-verteilt ist, wenn die zur Standardisierung des Mittelwerts benötigte Varianz des Merkmals unbekannt ist und mit der Stichprobenvarianz geschätzt werden muss. Die t-Verteilung erlaubt die Berechnung der Verteilung der Differenz vom Mittelwert der Stichprobe zum wahren Mittelwert der Grundgesamtheit. Varianzheterogenität Liegt dann vor, wenn sich die für zwei oder mehr Stichproben ermittelten Varianzen in ihrer Größe stark unterscheiden; mit Hilfe des F-Tests oder Bartlett-Tests lassen sich die Unterschiede überprüfen. Error- Bar- Chart Die Grafik der getrennten Darstellung der VI (Fehlerbalken) sollte nur zur Orientierung verwendet werden. Auch wenn kleine Überlappung besteht, können Ergebnisse bei ähnlicher Stichprobengröße bzw. bei Varianzhomogenität signifikant sein. Vertrauensintervall des Mittelwertsunterschieds Ist ein Maß für die Präzision, mit der ein Stichprobenkennwert den „wahren“ Populationsparameter schätzt. Bei der Berechnung des Mittelwerts einer Probe soll die Wahrscheinlichkeit bestimmt werden, dass der wahre Mittelwert innerhalb bestimmter Grenzen um den berechneten Mittelwert liegt. Diese Grenzen werden durch das Vertrauensintervall festgelegt. Die Größe des Vertrauensintervalls hängt von der Wahrscheinlichkeit P ab, dass der wahre Mittelwert innerhalb dieser Grenzen gefunden wird. ! Levene Test Mittels des Levene´s Test wird in SPSS Varianzhomogenität geprüft. Falls Varianzen in der GG als gleich angenommen werden (nicht signifikantes Ergebnis), wird mit einer gepoolten Varianz

gerechnet. Ein signifikantes Ergebnis weist auf unterschiedliche Varianzen in GG hin ! Interpretation der zweiten Zeile. F- Verteilung F-Wert = Verhältnis der Varianz zwischen den Gruppen / innerhalb der Gruppen ;F-Tes...


Similar Free PDFs