Testtheorie 9 Item Response Theorie 2 PDF

Title Testtheorie 9 Item Response Theorie 2
Course Testtheorie
Institution Universität Hildesheim
Pages 4
File Size 97.3 KB
File Type PDF
Total Downloads 30
Total Views 114

Summary

Zusammenfassung der Vorlesung "Testtheorie" von Frau Goldammer zum Thema "Item Response Theorie"...


Description

Testtheorie – Vertiefung des Rasch-Modells -

Wahrscheinlichkeit das Item zu lösen, steigt in dem Maße, in dem der Personenparameter en Itemschwierigkeitsparameter übertrifft

1. Wie berechnet man Theta und Sigma? - Modellprüfung erfolgt dadurch, dass Modellparameter aus dem empirischen Datensatz geschätzt werden und anschließend geprüft wird, wie wahrscheinlich die empirische Datenstruktur ist, wenn genau diese Modellparameter angenommen werden (Parameterschätzung) - Im Raschmodell erfolgt die Schätzung der Personen- und Aufgabenparamter nach dem Maximum-Likelihood-Prinzip - Likelihoodfunktion (LF) beschreibt die Wahrscheinlichkeit der beobachteten Daten in Abhängigkeit von den geschätzten Modellparametern, unter der Annahme, dass das Modell gilt. - Je höher der Wert der Likelihoodfunktion, desto besser passt das Modell auf die Daten. - Ergibt die Anwendung der Likelihoodfunktion keine befriedigende Schätzung, könnte die LSU angezweifelt werden. - Allerdings könnten dann auch andere Eigenschaften des Rasch-Modells bezweifelt werden.

 Gleichung zunächst unlösbar, da wird Theta und Sigma nicht kennen  Iterative Schätzverfahren > Einsetzen von (teilweise willkürlichen) Parametern und anschließendes Lösen der Gleichung > so lange, bis die Likelihoodfunktion ihr Maximum erreicht - Sowohl die Itemparameter als auch die Personenparameter werden so geschätztz, dass die Wahrscheinlichkeit (Likelihood) für die beobachteten Daten möglichst groß wird: Maximum Likelihood. - Vorgehen erfolgt iterativ (schrittweise), d.h. die optimalen Werte der Parameter werden nicht durch das Lösen eindeutiger Gleichungssysteme ermittelt, sondern durch Probieren.  Bei hoher Gesamt-Likelihood und hohen Wahrscheinlichkeiten für das Vorhandensein genau der vorliegenden empirischen Daten unter der mathematischen Annahme des RaschModells, ist es hoch wahrscheinlich, dass die vorliegenden Items die günstigen Eigenschaften des Rasch-Modells aufweisen. 2. Erschöpfende Statistiken - Umformung der Likelihoodfunktion zeigt: Die Eigenschaften des Rasch-Modells erlauben die Schätzung der Personen- und Itemparameter allein auf das Basis der Zeilen- und Spaltensummen. Diese Randsummen sind suffiziente Statistiken, d.h. sie schöpfen die in den Daten enthaltene Information vollständig aus. Die Betrachtung von verschiedenen Antwortmustern ist nicht nötig. - Bei Modellkonformität hängt also die Wahrscheinlichkeit der Daten nicht davon ab, welche Items von welchen Personen gelöst wurden, entscheidend ist nur die Anzahl.

-

Die Schwierigkeit eines Items ist nur davon abhängig, von wie vielen Personen es gelöst wurde, aber nicht von welchen Personen (hohe oder geringe Fähigkeit). Die Fähigkeit einer Person ist nur davon abhängig, wie viele Items sie gelöst hat, aber nicht welche Items (leichte oder schwere) > implizite, nicht geprüfte Annahme der KTT

3. Stichprobenunabhängigkeit der Parameterschätzungen - In der Praxis Parameterschätzung mit Conditional-Maximum-Likelihood-Methode - Itemparameter können ohne Berücksichtigung der Personenparameter geschätzt werden, Theta entfällt also aus der Formel - Die CML-Methode prüft die Wahrscheinlichkeit der Daten bei den gegebenen Zeilenrandsummen/ Summenscores - Personenparameter werden anschließend bestimmt  Separierbarkeit der Parameter - Schätzung der Itemparameter ohne Berücksichtigung der Personenparameter ermöglicht die Kalibrierung von Items an repräsentativen Stichproben. Die Itemparameter sind dann für andere Studien bereits bekannt > Separierbarkeit der Parameter wird daher auch als Stichprobenunabhängigkeit bezeichnet - Stichprobenunabhängigkeit ermöglicht die spezifische Objektivität von Vergleichen - Gilt nur, wenn das Rasch-Modell in der untersuchten Population gilt

4. Spezifische Objektivität - Wenn Daten mit dem Modell konform sind, kann man davon ausgehen, dass alle Items die gleiche Trennschärfe besitzen - Die IC-Funktionen aller Items haben die gleiche Form und sind nur entlang der Personenparameterachse parallel verschoben (unterschiedlich schwierig) - Gleiche Trennschärfe ermöglicht die spezifische Objektivität der Vergleiche hinsichtlich der Itemschwierigkeit: Der Schwierigkeitsunterschied zwischen zwei Items ist unabhängig davon feststellbar, ob Personen mit hoher oder niedriger Fähigkeit untersucht worden sind. - Auch Vergleiche zwischen Personen sind spezifisch objektiv: Die Unterschiede zwischen Personenparametern können unabhängig von der Schwierigkeit der verwendeten Items festgestellt werden (außer in den ganz extremen Bereichen).  Die Differenz zweier Itemparameter macht eine Aussage über den Schwierigkeitsunterschied zweier Items. Diese Unterschiede zwischen den Itemparametern sind unabhängig von den untersuchten Personen. Diese Invarianzeigenschaft des Raschmodells wird auch als Stichprobenunabhängigkeit bezeichnet.  Der Begriff ist irreführend, weil die Parameter des Modells nur dann stichprobenunabhängig sind, wenn das Rasch-Modell in der untersuchten Population gilt. 5. Modellgeltungstests - Wie weiß ich, ob das Rasch-Modell auf meine Daten passt und damit die gewünschten Eigenschaften aufweist? - Einfachste Möglichkeit ist, die Stichprobenunabhängigkeit der Parameterschätzung zu hinterfragen: - Gesamtstichprobe wird nach einem Kriterium in mindestens zwei Substichproben geteilt

-

-

-

-

Für jede Substichprobe nimmt man getrennte Itemparameterschätzungen vor > man erhält für jedes Item zwei (oder mehr) Werte für Sigma. Bei Modellkonformität sollten diese möglichst nicht voneinander abweichen. 5.1.Grafischer Modelltest Die beiden Itemparameterschätzungen werden in einem Streudiagramm gegeneinander abgetragen. Je näher die Itemparameter an der Hauptdiagonalen zu liegen kommen, desto größer ist die Stichprobenunabhängigkeit und desto eindeutiger die Rasch-Homogenität. Systematische Abweichungen von der Hauptdiagonalen sprechen dafür, dass modellinkonforme Wechselwirkungen zwischen Itemschwierigkeit und dem Kriterium (nach dem man die Stichprobe aufgeteilt hat) aufgetreten sind. 5.2.Numerischer Modelltest Likelihood-Quotienten-Test von Andersen Prüft, ob sich die Parameterschätzungen von Substichproben signifikant unterscheiden Beibehalten der Nullhypothese (> Test nicht signifikant) spricht für Modellkonformität. Wenn nur bei einzelnen Items signifikante Differenzen auftreten, kann man diese entfernen (Itemselektion). 5.3.Personenselektion Wenn er Modellgeltungstest ungültig ausfällt > Item- oder Personenselektion vornehmen Es kann sein, dass einzelne Personen auf die Items nicht in angemessener Weise reagieren, sondern untypische Bearbeitungsstile zeigen (sozial erwünscht, raten, Sprachprobleme, etc.) Untypische Bearbeitungsstile erkennt man an auffälligen Antwortmuster, die unter Modellgültigkeit eine sehr geringe Auftretenswahrscheinlichkeithaben (leichte Items verneinen, schwierigen zustimmen) > solche Probanden sollten aus der Stichprobe eliminiert werden (es könnte aber auch interessant sein, genau diese Personen genauer zu untersuchen) Prüfen, ob sich eine Person modellkonform verhält mit „person-fit“-Indizes: Auf Basis des Antwortmusters wird geprüft, ob es sich um ein plausibles oder unplausibles Testergebnis handelt > besonders für die Einzelfalldiagnostik ratsam!

6. Iteminformationsfunktion - Unabhängigkeit der Personenvergleiche von den verwendeten Items verdeutlicht, dass grundsätzlich alle Items eines rasch-homogenen Itempools zur Erfassung eines Merkmals geeignet sind - ABER: nicht jedes Item liefert gleich viele Informationen über die Merkmalsausprägung verschiedener Personen - IC-Funktion zeigt, dass die Lösungswahrscheinlichkeit ihren stärksten Zuwachs dort aufweist, wo die Itemschwierigkeit mit der Merkmalsausprägung übereinstimmt.  Die Iteminformationsfunktion erreicht dort ihr Maximum, wo Schwierigkeit und Fähigkeit zusammenfallen. - Nur Items, deren Schwierigkeit mit der Fähigkeit eines Probanden hinreichend übereinstimmt, tragen wesentlich zur Informationsgewinnung über die Merkmalsausprägung einer Person bei. - Alle Items, die für den Probanden zu leicht oder zu schwer sind, liefern nur wenig Information über die Fähigkeit des Probanden und könnten daher schlicht weggeladden werden. > Idee des adaptiven Testens

6.1.Adaptives Testen Vorgehen bei der Messung individueller Ausprägungen von Persönlichkeitsmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items am Antwortverhalten des untersuchten Probanden orientiert. - Aus einem rasch-homogenen Itempool werden nur diejenigen Items vorgegeben, die zur Fähigkeit der Person passen. Die Fähigkeit (Personenparameter) wird immer wieder anhand des vorhergehenden Antwortverhaltens geschätzt und entsprechend passende items ausgewählt: a) Branched Testing: Ablaufsystem mit Verzweigungen in paper-pencil-Tests b) Tailored Testing: computergestützt durch parallele Hochrechnung der Personenfähigkeit  Da die betreffenden Items dem Rasch-Modell entsprechen, sind die Testleistungen bzw. daraus geschätzte Personenparameter von Testpersonen vergleichbar, auch wenn die Personen unterschiedliche Aufgaben bearbeitet haben.  Vorteile des adaptiven Testens Nachteil - Steigerung der Sehr aufwendig Messeffizienz  Erstellung und Kalibrierung eines großen Itempools  Entwicklungs eines adaptiven Testalgorithmus - Positive Wirkung auf die Validität...


Similar Free PDFs