Zusammenfassung - Operationalisierung und Messung PDF

Title Zusammenfassung - Operationalisierung und Messung
Course Einführung in die Methoden der Politikwissenschaft
Institution Philipps-Universität Marburg
Pages 24
File Size 340.4 KB
File Type PDF
Total Downloads 83
Total Views 118

Summary

Operationalisierung und Messung...


Description

Operationalisierung und Messung Operationalisierung: Kunst einen theoretischen Begriff mit empirisch beobachtbaren Sachverhalten zu verknüpfen. Für die sachgerechte Verknüpfung nutzt die quantitative Forschung Korrespondenzregeln, die zu klaren Messanweisungen führen. Begriff trifft für quali- und quantitative Forschung zu, aber eher für letztere. Konstante: Ein Merkmal, das bei allen Objekten gleich ist (keine Varianz aufweist). Variable: Ein Merkmal, das sich bei mindestens zwei der Objekte unterscheidet Typen von Variablen  dichotom: Variable hat nur zwei Ausprägungen (z.B. vorhanden / nicht vorhanden)  dichotom-diskontinuierlich: V. kann nur einen der beiden Werte annehmen (ja / nein)  diskret: wenige, klar voneinander unterscheidbare Ausprägungen (z.B. Parteien: SPD, CDU, FDP)  diskret-diskontinuierlich: kann nur bestimmte (ganze) Werte annehmen (z.B. Kinderzahl)  kontinuierlich/stetig: beliebig viele Werte auf einem Kontinuum (z.B. Lebensalter, politische Einstellung) Beobachtungsstatus:  manifest: direkt beobachtbar (Kirchenmitglied)  latent: nicht direkt beobachtbar (politische Einstellung)  latenten Variablen können manifeste Variablen zugeordnet werden, um sie "sichtbar" zu machen  Indikatoren: manifeste beobachtbare Merkmale die für latente Variablen herangezogen werden: "direkt beobachtbares Merkmal, das mittels Korrespondenzregeln mit dem interessierenden theoretischen Begriff verknüpft wird"

Grundproblem der Operationalisierung: Zuordnung der richtigen Indikatoren zu den theoretischen Konstrukten. 3 Lösungsansätze: 1. definitorischer Ansatz 

Konstrukt wird durch die Operationalisierung festgesetzt o ,theoretisches Konstrukt und Operationalisierung werden gleichgesetzt o

gilt als nicht zufriedenstellend

2. typologisch-induktiver Ansatz  Annahme: empirisch beobachtbare Indikatoren beruhen auf gemeinsamer, latenter Klasse  zu untersuchenden Konstrukte werden definiert u. in ihrer theoretischen Dimension ausdifferenziert  für jede Dimension wird ein Pool von Indikatoren bestimmt  daraus wird ein Teil für die eigentliche Messung ausgewählt  Durchführung einer Analyse: messen die Indikatoren dasselbe theoretische Konstrukt?  eine latente Klasse der Objekte wird dadurch angezeigt, dass ihre Indikatoren untereinander nicht zusammenhängen 3. kausal analytischer Ansatz a. Annahme: latente Variable wirkt auf die manifesten Variablen, Indikatoren sind die Folge der latenten Variablen b. zusätzlich zur inhaltlichen Hypothese müssen hierfür Hilfshypothesen und Instrumententheorien formuliert werden c. "die Prüfung erfolgt dann in der einfachsten (allerdings nicht ganz sachgemäßen Variante so, dass man aus engen Zusammenhängen zwischen Indikatoren darauf schließt, dass diese etwas ähnliches (das zu Grunde liegende Konstrukt) messen, während Indikatoren, die mit den anderen keine engeren Zusammenhänge aufweisen, etwas anderes messen" d. Kritik: i. Implizite Annahme: prinzipiell unbegrenztes Indikatoren Universum existiert ii. Indikatoren weisen eine Heterogenität auf (nicht alle Indikatoren bringen bei einer Messung das gleiche Ergebnis, nicht alle manifesten Variablen beschreiben das zu untersuchende Ereignis in gleicher Güte) iii. außerdem muss von unterschiedlichsten Messfehlerungenauigkeiten ausgegangen werden iv. multiple Indikatoren: es ist empfehlenswert für eine Messung unterschiedliche Indikatoren zu verwenden => weniger Messungenauigkeiten v. systematische Abweichungen: zum Beispiel bei Meinungsfragen systematische Anpassung an die gesellschaftliche akzeptierte Meinung: Umfragen zur Wahlbeteiligung sind oft geschönt von den Befragten 1. dann nützt es auch nicht mehrere Indikatoren zu nutzen, wenn sie alle den Fehler aufweisen vi. wenn Indikatoren allerdings entgegengesetzte Fehler aufweisen können diese sich ausgleichen vii. Messfehler können thematisiert werden viii. sozialwissenschaftliche Messungen sind nicht hundertprozentig genau 7.2 Messung: Messen Erfassung von Objekteigenschaften und Zuordnung der Eigenschaften zu Zahlen

  

Zuordnung von Zahlen zu Objekten bzw. zu Objektmerkmalen erfolgt nach festgelegten Regeln Ergebnis: strukturtreue Abbildungen der Objekteigenschaften Messen ist intersubjektiv eindeutiger und lässt feinere Differenzierungen zu als Sprache

3 Grundelemente einer Messung:  empirische Objekte und ihre Eigenschaften  Zahlen  Zahlenzuordnungsregeln Empirisches Relativ :Eine Menge von Objekten, die mit Hilfe von Kriterien sortiert oder definiert werden kann. Numerisches Relativ: Die Menge von Zahlen mit der man ein empirisches Relativ definieren kann Morphismus: Strukturtreue Messung, bei der das empirische Relativ so im numerischen Relativ abgebildet werden soll, dass sich die Struktur der Relationen in den Zahlen wiederfindet. Isomorphismus: Wechselseitig eindeutige Zuordnung zwischen empirischem und numerischem Relativ (jedes Objekt erhält eine, nur ihm eigene Zahl). Homomorphismus: Mehrere Objekte können einer Zahl zugeordnet werden, mehrere empirische Relative entsprechen einem numerischen Relativ. => Rückschluss von der Zahl auf ein einzelnes Objekt ist nicht mehr möglich. Mess-Skalen und Skalenniveaus  Mess-Skala: sie ermöglicht die homomorphe Abbildung eines empirischen Relativs durch ein numerisches Relativ  Repräsentationtheorem: mathematische Definition, was als homomorphe Abbildung verstanden werden kann - es gibt in seinen Axiomen an, welche Bedingungen im empirischen Relativ erfüllt sein müssen, damit eine homomorphe Abbildung möglich ist  Messarten: - a) fundamental: Merkmalsausprägungen des empirischen Relativs werden angeblich direkt den Zahlen des numerischen Relativs zugeordnet - b) abgeleitet: einer neue Skala wird aus einer oder mehreren alten Skala deduktiv abgeleitet - c) vereinbart: Zuordnung von Objektmerkmalen zu Skalen (ohne messtheoretische Überlegungen); kommt häufig vor, ist aber unter methodischen Aspekten nicht angesehen  Skalentypen: gehören zu hierarchisch angeordneten Messniveaus, die Auskunft darüber geben in welcher Form die empirischen Merkmale von Objekten es erlauben sie homomorph numerisch abzubilden - Eindeutigkeitstheorem beschreibt, die Regeln, die in den Skalentypen angewandt werden - Bedeutsamkeitstheorem beschreibt, welche Aussagen inhaltlich sinnvoll sind ohne den Wahrheitswert der statistischen Aussage zu verändern - Nominalskala:  unterste Hierarchiestufe,  Objekteigenschaften können hier nur in identisch und nicht identisch klassifiziert werden,  die Zahlen haben dabei keine Bedeutung im Sinne von besser oder schlechter /größer

-

-

-

-

-

oder kleiner, sondern nur gleich und anders, häufig bei dichotomen und diskreten Variablen (z.B. Geschlecht)  Zulässige Verteilungskoeffizienten: absolute und prozentuale Häufigkeiten, sowie die am häufigsten vorkommende Kategorie (Modus)  erlaubte Skalentransformationen: alle Transformationen sind erlaubt, die die eindeutige Zuordnung eines Merkmals zu einer Zahl gewährleisten Ordinalskala  zweitunterste Hierarchiestufe  sie stellt eine Rangordnung zwischen den zwei Zahlen (Merkmalen) her  die Abstände zwischen den Zahlen sind jedoch unwichtig (auf 1 folgt 2 oder z.B. 666)  zulässige Verteilungskoeffizienten: kumulierte Häufigkeiten, Rangpositionen, Schwellenwerte wie z.B. Der Median und alle die auch bei der Nominalskala zulässig waren  erlaubte Transformationen: alle, die die Abfolge der Zahlen nicht verändern Intervallskala  drittunterstes Skalenniveau  wie Ordinalskala, nur ,dass die Unterschiede zwischen zwei in einer Rangordnung benachbarten Zahlen gleich groß sein müssen (auf 1 folgt 2 )  der Nullpunkt wird willkürlich festgelegt  z.B. Temperaturskala  zulässige Verteilungskoeffizienten: alle bisher genannten und das arithmetische Mittel, die Standardabweichung, Varianz, Schiefe, Wölbung  erlaubte Transformationen: alle, die die Intervalle nicht verändern, oder alle Intervalle gleichermaßen verändern Ratioskala  zweithöchste Hierarchiestufe  wie Intervallskala, nur dass sie einen "natürlichen" nicht auf Konventionen beruhenden Nullpunkt hat  Null ist dabei gleichbedeutend mit Abwesenheit des Merkmals  z.B. Lebensalter  zulässige Verteilungskoeffizienten: alle oben genannten und geometrisches Mittel und Variabilitätskoeffizient Absolutskala  oberste Hierarchiestufe  Skaleneinheiten sind festgelegt (z.B.: halbe Kinder machen keinen Sinn, daher sind nur ganze Zahlen erlaubt)  keinerlei Skalentransformationen sind erlaubt  zulässige Verteilungskoeffizienten: alle Rechenoperationen sind erlaubt, denn deren zulässiges Spektrum wächst mit der Höhe der Skalenniveaus => je höher das Skalenniveau, desto eingeschränkter die erlaubten Skalentransformationen, aber je höher das Skalenniveau desto größer das Spektrum an erlaubten Rechenoperationen => jede Skala kann in die Skalen auf dem niedrigeren Skalenniveau transformiert werden Siehe Schaubild S. 184 7.2/2

Grundlagen der Testtheorie  klassische Testtheorie:  1. keine Messung ist vollkommen exakt, der Messwert setzt sich aus dem wahren Wert und dem Messfehler zusammen

 2. Messfehler sind nicht systematisch, sondern zufällig, Messfehler schwanken unsystematisch um den wahren Wert herum  3. der wahre Wert ist nicht mit dem Messfehle korreliert, d.h. Wahrer Wert und Messfehler hängen nicht zusammen  4. Messfehler wiederholter Messungen korrelieren nicht miteinander, d.h.  5. die Korrelation zwischen dem Messfehler der 1. Messung und dem wahren Wert der zweiten Messung mit demselben Messinstrument beträgt null  6. auch Messfehler von zwei Messwertreihen unterschiedlicher Konstrukte korrelieren nicht miteinander, auch wenn die Ergebnisse der beiden Messreichen korrelieren  7. die Messfehler einer Messwertreihe dürfen nicht systematisch mit den wahren Werten einer Messwertreihe eines anderen Konstrukts zusammenhängen ???  Kritik an der klassischen Messwerttheorie: klassische Testtheorie setzt mindestens Intervallskalenniveau voraus Indexbildung  Wichtig für Analysephase des Verfahrens, aber bereits bei Konstruktion der Messinstrumente zu bedenken  Index: Variable, die sich aus der Kombination mehrerer anderer Variablen ergibt  Indexbildung:  1. welche Dimensionen und Indikatoren sollen in den Index eingehen?  Theoretisch: welche Dimensionen des Konstruktes sollen herangezogen werden  empirisch: Testen, welche Indikatoren dafür in Frage kommen  2. wie sollen die Dimensionen/Indikatoren kombiniert werden  Summenindex: additive Zusammenfassung mehrerer Indikatoren  Voraussetzung: alle Indikatoren müssen dabei einen identischen Wertebereich haben  Annahme: alle verwendeten Indikatoren sind gleichwichtig für das Konstrukt  Indikatoren können unterschiedliche stark gewichtet werden im Summenindex  ungewichtet: alle Indikatoren zählen gleich viel  gewichtet: bestimmte Indikatoren zählen mehr als andere  s. Schaubild S. 189  Multiplikative Indexbildung:  sinnvoll, wenn ein bestimmter Indikator Voraussetzung für Werte auf dem Index sein soll  wenn ein Wert null ist, kann das Produkt auch nur null sein  Subtraktion und Division sind auch möglich  Kombinationsindizes:  zwei oder mehrere unabhängige Dimensionen oder Konstrukte werden kombiniert  dadurch wird Klassifikation oder Typoologie gebildet  Beispiel s. S. 190  semantisches Differential oder Polaritätenprofil  Spezialform der Indexbildung  Befragung mit Gegensatzpaaren  Errechnung des Mittelwertes aus Antworten der Befragten  graphische Abbildung von Antworten einer Skala 7.2.5. Skalierungsverfahren  Methoden zur Konstruktion von Messinstrumenten  zur Ermittlung von Einstellungen (latente Konstrukte)  Items: kurze Behauptungen über Sachverhalt ("die meisten unserer Politiker sind korrupt")  können unterschiedlich "hart" formuliert werden ("unsere Politiker sind alle korrupt" ist

      

härter, als "einige unsere Politiker sind korrupt") Vorlegen von Items zu denen sich positioniert werden soll, in der Reaktion wird die latente Einstellung (bestenfalls) deutlich dichotome Gestaltung: stimme zu / stimme nicht zu differenzierte Gestaltung: stimme überhaupt nicht zu, stimme nicht zu, stimme zu, stimme voll zu => Zustimmung ist abhängig von Härtegrad der Formulierung und latenter Einstellung Itemcharakteristiken: Zusammenhang zwischen latenter Einstellung und Zustimmungswahrscheinlichkeit wird in mathematischer Kurve dargestellt werden Skalierungsverfahren: "Verfahren mit denen die theoretische Dimension eines zu untersuchenden Konstruktes erfasst und in einer einzigen neuen Skala resultiert" Skalierung: Modell zur Ordnung der zu beurteilenden Items  Ermittlung der Position eines Objektes auf einer Zieldimension  Ziel: mehrere Items werden zu einer neuen Variablen zusammengefasst

Beispielhafte Skalierungsverfahren  Thurstone-Skala der gleich erscheinenden Intervalle  ältestes Verfahren, aber heute selten, wegen hohem Aufwand  Bildung eines großen Itempools (mindestens 100 Items)  Items sollen gesamtes Evaluationsspektrum abdecken (von extrem negativ über mäßig zu extrem positiv)  Items werden Experten vorgelegt (ursprünglich 300 Personen)  Bestimmung der Position jedes Items auf Evaluationsskala  Berechnung des Mittelwerts des Expert_innenurteils für jedes Item  dieser Wert wird Skalenwert  nur Items werden aufgenommen, über die weitgehend Einigkeit herrschte  Endskala soll 20-30 Items enthalten, deren Mittelwerte die Skalenbreite von 1-11 abdecken  Instrument wird anschließend Befragten vorgelegt  entweder Auswahl aller Items, die Zustimmung erhalten, oder aber Bewertung jedes einzelnen Items  der Messwert der Befragten wird der Mittelwert aller Skalenwerte der von ihr beurteilten Items  Annahme: Befragte stimmen typischerweise den Items zu, die möglichst nah an ihrer latenten Einstellungen liegen  Beispiel s. Schaubild S. 193  Kritik: Experten haben eigene Einstellung, die bei der Charakterisierung unbemerkt Einfluss üben  Likert-Skala oder Methode der summierten Ratings  häufig verwendet  100 Items werden zusammengestellt  Items sollen genau die interessierende Einstellung abbilden  meistens konträre Polung (positive oder negative Aussage zum Einstellungsobjekt)  Artikulation des Grades der Zustimmung oder Ablehnung  Annahme: Zustimmung ist intensiver, wenn interessierende Einstellung bei Befragten vorhanden ist  Items werden zunächst in kleiner Probandengruppe getestet auf ihre monotone Itemcharakteristik s. Schaubild S. 195  Itemanalyse soll ungeeignete Items ausschließen

 Items sind ungeeignet, wenn eine Person, deren Einstellung bekannt ist, anders antwortet, als die Itemkonstruktion es beabsichtigt; außerdem werden "Ausreißer-Items" entfernt (Items, bei denen die Antwort eine andere Einstellung zeigt, als bei den anderen Items)  Wert eines Befragten ergibt sich durch Summierung seiner Skalenwerte zu den Items, die dann durch die Anzahl der Items dividiert wird  Kritik: wenig  wie wird entschieden, ob es einen Mittelwert gibt (unentschlossen)?  Unterschiedliche Bezeichnung dieses Mittelwertes mit unterschiedlichen Bedeutungen  einige Antwortkategorien reichen von Ablehnung bis Zustimmung (-1 bis + 1) andere nur von fehlender Zustimmung bis Zustimmung (0 bis 1)  es ist schwierig eindeutige Items zu entwerfen (Items die nur die angezielten Einstellungen thematisieren)  es ist schwierig Items zu finden, die den gleichen Härtegrad haben (sonst müsste eine Gewichtung stattfinden)  Beispiel s. S. 195  Guttman-Skalierung  Idee unterschiedlicher Härte- und Schwierigkeitsgrade von Items  Annahme: Befragte stimmen einem Item bis zu dem Punkt zu, der der eigenen Einstellung entspricht  das heißt, dass alle weicheren Items auch bejaht werden  daraus resultiert Itemkurve in Treppenform (s. S. 197)  Beispiel der illegalen und illegitimen Protestformen, jemand, der äußerst illegale Protestformen für legitim hält, würde auch weichere Protestformen für legitim halten  wenn mehrere der Befragten die Hierarchie der Items nicht einhalten (also nicht allen Hierarchieebenen zustimmen, die unter der Ebene ihrer Einstellung liegen), dann müssen die Items aus der Skalierung ausgeschlossen werden  als Gütekriterium wird der Reproduzierbarkeitskoeffizient herangezogen  wenn der Skalenwert bekannt ist, gibt der Koeffizient den Anteil der fehlerfreien Antworten an und beträgt im Idealfall 1.00, Guttman würde aber noch Skalen mit 10% Fehlern erlauben (Koeffizient von über 0.89) Qualitätskriterien der Messung  1. Objektivität  Messinstrument soll unabhängig von den Anwendenden das gleiche Ergebnis bringen  auch Intersubjektivität  Differenzierung in:  Durchführungsobjektivität: Datenerhebung muss objektiv sein  Auswertungsobjektivität: Datenanalyse muss objektiv sein  Überprüfung:  Messergebnisse verschiedener Datenerheber_innen und Befunde verschiedener Auswerter_innen werden miteinander in Beziehung gesetzt und die Korrelatione berechnete. Je näher sie an 1 liegt, desto größer ist dei Objektivität  2. Reliabilität  Zuverlässigkeit eines Messinstrumentes  bringt Messinstrument bei demselben Objekt immer die gleichen Ergebnisse hervor?  Dabei sind Zufallsmessfehler die größte Gefahr  je weiter sich die Zufallsmessfehler um den wahren Wert streuen, desto geringer die Reliabilität

 Reliabilität = Quadrat der Korellation zwischen beobachteten und wahren Werten; große Korrelation = kleine Messfehler = große Reliabilität  praktische Überprüfung der Reliabilität:  Test-Retest-Methode: zweimalige Anwendung desselben Messinstruments beim selben Objekt; Korrelation der daraus entstehenden Messwerte gibt die Test-RetestReliabilität an.  gut bei unveränderlichen Testobjekten  Paralleltest-Methode  zwei Messungen an derselben Untersuchungseinheit werden zur selben Zeit, aber mit zwei verschiedenen Instrumenten durchgeführt  Korrelation der beiden Messwerte gibt die Reliabilität an  Problem: finde zwei hinreichend ähnliche Messinstrumente  diese Methode wird auch genutzt, indem verschiedene Items dasselbe abfragen  Split-Half-Verfahren  mit Instrumenten aus multiplen Items  Teilung der Items in zwei äquivalente Hälften (Quasi Paralleltest)  Korrelation zwischen beiden Testhälfte entspricht dem Reliabilitätskoeffizienten  Problem: richtige Aufteilung ist nicht standardisiert  3. Validität  Gültigkeit des Messinstrumentes; ein Messinstrument misst genau das, was es messen soll  Validität wird vor allem durch systematische Fehler eingeschränkt  Fehlerbereiche:  mehr bzw. Zu weite Validität (mit einem Indikator wird mehr gemessen, als vorgesehen)  weniger bzw. Zu enge Validität (ein Indikator misst nicht alles, was damit gemessen werden soll)  unreine Validität (einerseits zu weite und andererseits zu enge Validität)  Überprüfung der Validität  Inhaltsvalidität:  Inspektion der augenscheinlichen Gültigkeit der Untersuchungsergebnisse nach Plausibilitätskriterien (wurden alle relevanten Dimensionen des Untersuchungsgegenstandes erfasst? Wurden die Instrumente nach etablierten Regeln konstruiert und angewendet? Entsprechen die Funde dem Stand der Forschung (nicht zentral)?  Aber: keine verbindlichen u. Objektiven Kriterien vorhanden  Kriteriumsvalidität:  externes Kriterium, das mit einem anderen Messinstrument erfasst werden muss, wird herangezogen  Zusammenhang zwischen dem interessierenden Messinstrument und dem externen Kriterium muss bestehen  Unterscheidungen:  Parallelvalidität  Messungen des ext. Kriteriums und des Instrumentes erfolgen gleichzeitig  Beispiel s. S. 200  Prognosevalidität  externes Kriterium wird erst später ermittelt  das externe Kriterium ist eine Art Prognose, die erst später zutrifft oder nicht

 Methode der bekannten Gruppen  Instrument wird an Gruppen getestet, bei denen man die Einstellungen / Merkmale schon vorher kennt  Kritik:  Prüfung nur auf Aggregatebene nicht auf Individualebene  stimmen die Indikatoren des externen Kriteriums?  Konstrukvalidität  wie hängt der Konstrukt empirisch mit anderen zusammen?  Zusammenhänge werden analysiert und mit Hypothesen verglichen  wenn die empirischen Zusammenhänge den Hypothesen entsprechen besteht Konstruktvalidität  Validität ist nicht in einer Studie prüfbar, sondern ein Prozess  inte...


Similar Free PDFs