Title | Zusammenfassung - Grundlagen der Testkonstruktion |
---|---|
Course | Grundlagen der Testkonstruktion |
Institution | FernUniversität in Hagen |
Pages | 91 |
File Size | 4.3 MB |
File Type | |
Total Downloads | 67 |
Total Views | 138 |
Grundlagen der Testkonstruktion...
3421 Grundlagen der Testkonstruktion M6 - Sommersemester 2013 Barbara Trusch 03.06.2013
Zusammenfassung des Studienbriefes und der Vorlesungen
3421 – Grundlagen der Testkonstruktion und Vorlesungen
Inhaltsverzeichnis 1 1.1 1.2 1.3 1.3.1 1.3.2 1.3.3
Grundlagen psychologischer Testverfahren ................................................................ 2 Anwendungsbereiche und Klassifikation von Testverfahren........................................ 3 Tests und Testtheorie ................................................................................................. 4 Grundlagen der Testtheorie ........................................................................................ 5 Einführung in die Klassische Testtheorie (KTT) ....................................................... 6 Kritische Anmerkungen zur Klassischen Testtheorie ............................................... 8 Grundideen der Probabilistischen Testtheorie (PTT) ............................................... 9
2 2.1 2.2 2.3 2.4
Testkonstruktion: Von der Planung zum ersten Entwurf .............................................. 9 Merkmals- und Geltungsbereich ................................................................................10 Festlegung des generellen Konstruktionsprinzips ......................................................11 Generierung eines Itempools .....................................................................................14 Sprachliche Formulierungsregeln und Antwortformate ...............................................16
3 Itemanalyse: Kürzung und Revision des Entwurfs .....................................................21 3.1 Itemanalyse nach Klassischer Testtheorie (KTT) .......................................................21 3.1.1 Rekodierung, Deskriptive Itemanalyse und Itemschwierigkeiten.............................22 3.1.2 Trennschärfenanalyse ............................................................................................25 3.2 Überblick über die Probabilistische Testtheorie..........................................................30 3.2.1 Grundlagen des Rasch-Modells .............................................................................30 3.2.2 Weitere probabilistische Testmodelle für dichotome Daten ....................................34 3.2.3 Probabilistische Modelle für Ratingskalen ..............................................................36 4 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.2 4.2.1 4.2.2 4.3 4.4
Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung.................38 Explorative Faktorenanalyse (EFA)............................................................................38 Grundlagen der Faktorenanalyse ...........................................................................38 Varianten und Vorgehensweise bei der Explorativen Faktorenanalyse...................39 Beispiel für die Durchführung einer EFA mit SPSS.................................................46 Bewertung der Explorativen Faktorenanalyse ........................................................49 Konfirmatorische Faktorenanalyse (CFA) ..................................................................49 Grundbegriffe Linearer Strukturgleichungsmodelle (SEM) ......................................49 Vorgehensweise bei der Konfirmatorischen Faktorenanalyse ................................52 Aggregation zu Skalenwerten, Normierung und Interpretation ...................................62 Zusammenfassung der Schritte der Testkonstruktion ................................................66
5 5.1 5.2 5.2.1 5.2.2 5.3 5.3.1 5.3.2 5.3.3 5.4 5.4.1 5.4.2
Evaluation psychologischer Testverfahren .................................................................67 Richtlinien und Beurteilungssysteme für Tests ...........................................................67 Psychometrische Gütekriterien ..................................................................................70 Objektivität und Reliabilität .....................................................................................70 Validität ..................................................................................................................74 Weitere allgemeine Gütekriterien ...............................................................................84 Kriterien mit vorwiegend praktischem Anwendungsbezug ......................................84 Kriterien mit Bezug zu Rechten und Reaktionen der Teilnehmer ............................85 Kriterien mit Bezug zum Verhalten der Teilnehmer ................................................86 Gütekriterien für die Einzelfalldiagnostik ....................................................................87 Anforderungen an die Normierung .........................................................................87 Kennwerte mit Bezug zur Messgenauigkeit ............................................................88
Seite 1
3421 – Grundlagen der Testkonstruktion und Vorlesungen
1
Grundlagen psychologischer Testverfahren -
Bezeichnung Test nicht einheitlich o engeres Verständnis Verfahren, deren Ergebnis frei von jeder subjektiven Beurteilung seitens der Testteilnehmer entstehen z. B. Fähigkeits- und Leistungstests o breiteres Konzept schließt auch subjektive Fragebogenverfahren ein Unterscheidung wird lediglich zur Klassifikation von Testverfahren herangezogen
-
Definition nach Lienert und Raatz (1998): o Ein psychologischer Test ist „ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung“. o Bestimmungsstücke der Definition Wissenschaftlichkeit Erfassung von relativ eindeutig definierten und nachweisbar relevanten Merkmalen Konstruktion baut auf statistischen Modellen psychologischer Testtheorie auf muss sich gemäß psychometrischer Gütekriterien empirisch bewähren Dokumentation in für Fachleute im Detail nachvollziehbarer Form Testmanuale oder Handanweisungen Routineverfahren Inhalt, Verfahrensablauf, Bewertung der Aussagen standardisiert und damit routinemäßig wiederholbar Persönlichkeitsmerkmal weit zu verstehen schließt alle Arten interindividueller Differenzen ein Testergebnis quantitative Aussage über Merkmal Reaktionen auf Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu Testwert (Score) zusammengefasst Rohwert erlaubt relative Aussage über individuelle Merkmalsausprägung
Der einfachste Weg, wissenschaftliche von unwissenschaftlichen Testverfahren zu unterscheiden, ist, nach der Existenz eines Testmanuals oder einer äquivalenten Dokumentation zu fragen. Deren Nichtvorliegen ist ein zuverlässiges Ausschlusskriterium; allerding garantiert das bloße Vorliegen noch nicht die Wissenschaftlichkeit des Verfahrens und schon gar nicht die Eignung für einen bestimmten Zweck,
-
Entwicklung der modernen Testtheorie besonders durch Fortschritte beim Bemühen um Messung der menschlichen Intelligent im 19. und frühen 20 Jh o Sir Francis Galton (1822-1911) o Alfred Binet (1857-1911) o Entwicklung des Army Alpha Tests im 1. Weltkrieg
Seite 2
3421 – Grundlagen der Testkonstruktion und Vorlesungen
1.1
Anwendungsbereiche und Klassifikation von Testverfahren -
-
Konstruktion von Testverfahren möglich für o genau spezifizierte Anwendungen o Anwendungen auf verschiedenen Gebieten zentrale Bedeutung für praktischen Einsatz, dass Anwendung in einem spezifischen Gebiet theoretisch und empirisch begründet werden kann o Güte eines Test kann nicht unabhängig vom Einsatzzweck beurteilt werden Klassifikation von Tests o Anwendungsbereiche o
Inhalt Leistungstests Entwicklungstests, Intelligenztests, Allgemeine Leistungstests, Schultests, spezielle Funktionsprüfungs- und Eignungstests geben Aufschluss über Fähigkeiten und Fertigkeiten Vielzahl von Problemlöseaufgaben mit Beantwortung richtig / falsch Psychometrische Persönlichkeitstests Persönlichkeits-Struktur-Tests, Einstellungs- und Interessentests, Klinische Tests Fragebögen zu Gefühlen, Vorlieben, Abneigungen, Interessen und Meinungen subjektive Selbstbeurteilung oder Selbstbeschreibung ohne richtige oder falsche Antworten Inventare = Erfassung mehrerer Merkmale = mehrere Subtests Persönlichkeits-Entfaltungsverfahren Formdeuteverfahren, Verbal-thematische Verfahren, Zeichnerische und Gestaltungsverfahren weitgehend unstrukturiertes Material oder mehrdeutige Bilder unbewusste Motive, Gefühle, Einstellungen Konstruktion häufig nicht nach testtheoretischen Vorgaben Auswertung mit weiten subjektiven Interpretationsspielräumen semi-projektive Tests: Verbindung Projektion mit Standardisierung
o
Testungsstrategie normorientierte Konstrukttests erlauben wissenschaftlich begründbaren Rückschluss vom Testverhalten auf dahinter liegende Eigenschaften und Fähigkeiten (Konstrukte) normorientiert, da Testergebnis einer Person relativ zum Durchschnitt (Norm) einer Bezugsgruppe gesehen wird kriterienorientierte Tests Vergleich mit Idealnorm = Lehrziel keine Aussagen über Fähigkeiten und Eigenschaften
Seite 3
3421 – Grundlagen der Testkonstruktion und Vorlesungen
o
1.2
formale Kriterien Speed vs. Power Schwierigkeitsgrad jeweils ansteigend Speedtests = zeitgebundene Schnelligkeitstests o alle Items lösbar Powertests = Niveautests o Items erreichen Niveau, an dem Probanden scheitern ein- und mehrdimensionale Tests Gruppen- bzw. Individualtests verbale vs. nicht-verbale Tests nach Technologie Papier- und Bleistift-Tests PC-gestützte Tests Online-Tests computergestützte adaptive Tests
Tests und Testtheorie -
-
psychologische Tests o Klasse in bestimmter Weise definierter Verfahren zur Messung psychologischer Merkmale psychologische Testtheorie o beschäftigt sich mit Zusammenhang dieser Merkmale mit Testverhalten = Schlüsse + im allgemeinen Sinne Qualität der Schlussfolgerungen o wird durch formale, mathematisch formulierte Modelle beschrieben Items = Aufgaben = einzelne Verhaltensangelegenheiten o Item besteht aus Reiz (Testaufgabe oder Frage) Anzahl möglicher Reaktionen (Antwortmöglichkeiten) offene Antwortformate o z. B. projektive Tests o Zahl möglicher Projektionen unbegrenzt geschlossenes Antwortformat o wird meistens verwendet o von jedem Item wird angenommen, dass es ein beobachtbarer Indikator = manifeste Variable für ein zugrunde liegendes nicht beobachtbares Konstrukt = latente Variable sei o beobachtetes Antwortverhalten liefert also Hinweis auf Ausprägung der latenten Variable, für die man sich eigentlich interessiert o Hinweise einzeln nicht perfekt Zusammenfassung zu Skalen o Testscore = Gesamtwert wird nach fester Vorschrift berechnet: meist Aufsummierung oder Durchschnittsbildung wird als eigentlicher Indikator für Ausprägung des Konstrukts angesehen
Seite 4
3421 – Grundlagen der Testkonstruktion und Vorlesungen
-
Testtheorie o beschäftigt sich konkret damit, in welchem Ausmaß es zulässig / sinnvoll ist, einzelne Items als Indikatoren des latenten Konstrukts anzusehen, sie zu einem oder mehreren Testscores zusammenzufassen und aus diesem Wert wieder auf Ausprägung des psychologischen Merkmals zu schließen
In der Testtheorie geht es um die Beurteilung sowohl des Gesamtwertes im Test als auch von dessen Bestandteilen hinsichtlich des Zusammenhangs zwischen Testverhalten und psychologischen Merkmalen. -
1.3
Testtheorie lässt sich auch auf andere Erhebungsmethoden anwenden psychometrische Verfahren o Tests wurden nach der Lehre von der quantitativen Messung psychischer Merkmale (Psychometrie) entwickelt o da gleiche Prinzipien oft auch zur nachträglichen Beurteilung anderer Verfahren herangezogen werden können, geht Gegenstandsbereich der Testtheorie über diagnostisches Instrument Test hinaus Grundlagen der Testtheorie
-
Beispiel: Klausur o Anspruch, dass Lerninhalte repräsentativ und auf angemessenem Niveau abgebildet werden sollen o Repräsentativität ausgewogene Abbildung der unterschiedlichen, wesentlichen Inhaltsbereiche keine irrelevanten Inhalte entspricht testtheoretisch der Inhaltsvalidität o Identifikation misslungener Aufgaben
Seite 5
3421 – Grundlagen der Testkonstruktion und Vorlesungen
1.3.1
Einführung in die Klassische Testtheorie (KTT)
-
Grundlage der meisten psychologischen Testverfahren (95 %) Probabilistische Testtheorie überwindet Schwächen, aber bei erheblicher höherer mathematischer Komplexität
-
Vorteil KTT o Einfachheit o konzipierte Test haben sich bewährt
-
KTT o
o o o
akzeptiert Variation von Testergebnissen einzelner Personen bei gleichem Test Übungs- und Transfereffekte unsystematische äußere Einflüsse unsystematische innere Einflüsse Fehlerbegriff in KTT berücksichtigt nur unsystematische Fehler darüber hinaus keine Annahme, wie Items beantwortet werden oder wie Testleistung zustande kommt nur Berücksichtigung, aus welchen Komponenten Messwerte bestehen KTT ist reine Theorie der Messfehler bzw. der Freiheit von Messfehlern oder Reliabilität
-
Voraussetzung von Grundannahmen = Axiomen, aus denen sich bestimmte Folgerungen logisch ergeben o Ausgangspunkt ist Varianz von Messwerten (1) Interitemvarianz: Messwerte können schon bei der Testung einer einzelnen Person bei einer einzigen Gelegenheit zwischen den Teilen (Items) eines Tests variieren (2) Messwerte können intraindividuell variieren, wenn dieselbe Person mehrfach mit den gleichen Verfahren getestet wird (3) Messwerte können interindividuell zwischen verschiedenen Teilnehmern einer einzelnen Testung variieren
-
bezüglich (2) und (3) unterstellt KTT Zufallsziehung und Zufallsfehler o bei beliebiger Testwiederholung Xi Annäherung an Normalverteilung o Mittelwert ist als wahrer Wert Ti (true score) definiert Existenzaxiom entspricht Verhaltenstendenz o jede einzelne Messung ist mit Fehler Ei behaftet umfasst per Definition alle unkontrollierten und unsystematischen Störeinflüsse schwankt im Ausmaß ebenfalls zufällig um einen Mittelwert
-
zentrales Grundaxiom der KTT: jeder beobachtete Wert setzt sich additiv aus einem wahren Wert und einer Fehlerkomponente zusammen
-
damit ist Messfehler Differenz zwischen beobachtetem Testwert einer Person und wahrem Wert
Seite 6
3421 – Grundlagen der Testkonstruktion und Vorlesungen
-
zwei Folgerungen, nach Steyer und Eid (2001) aus logischen Gründen wahr o Mittelwert M des Messfehlers ist Null gilt sowohl für unendlich viele Messungen einer Person i als auch für Mittelwert der Fehler in einer (Teil-)Population P
o
-
kein Zusammenhang r zwischen Messfehler und wahrem Wert gilt ebenfalls für Person als auch (Teil-)Population Messfehler hängt damit nicht von Ausprägung (hoch, niedrig, durchschnittlich) des wahren Werts ab
zusätzliche Annahmen o Messfehler eines Test A weist keinen Zusammenhang mit Messfehler eines Test B auf
Annahme gilt nur dann, wenn beide Messvorgänge experimentell (nicht empirisch) unabhängig sind Steyer und Eid (2001): Annahme kann in der Praxis falsch sein (Annahme bequem, aber nicht zwingend notwendig) Unabhängigkeit von Messfehler und wahrem Wert gilt auch überkreuz: Messfehler von Test A weist keinen Zusammenhang mit wahrem Wert aus Test B auf
o
-
aus X = T + E ergibt sich, dass mindestens Intervallskalenniveau vorausgesetzt wird o bei den meisten Fragebögen fraglich o „Per fiat“-Messung („Es möge sein“)
-
Reliabilität rtt eines Testes (= Messgenauigkeit) o Erweiterung der Grundgleichung auf viele Messungen (entweder einer Person oder in Population) o jeweils Verteilungen mit Streuung zu beobachteten Werten, wahren Werten und Messfehlern o Reliabilität = Anteil der wahren Varianz ST² an der gesamten beobachteten Varianz SX² o da nach (2) keine Korrelation zwischen T und E Addition der Varianzen möglich
Seite 7
3421 – Grundlagen der Testkonstruktion und Vorlesungen
o
Schätzung der Reliabliltät eines Tests
-
Reliabilität spielt auch für Prüfung der Genauigkeit einer einzelnen Messung wichtige Rolle o wesentliche Information zur Bestimmung von Standardschätz- und Standardmessfehler
-
Validität o in T und ST² sind auch systematische Fehler zusammengefasst bias o in KTT wird bias der wahren Varianz zugeschlagen o formal Erweiterung der Grundgleichung möglich, wenn T in C = Zielkonstrukt und B = Bias zerlegt wird
o
o
o o
1.3.2 -
-
-
-
Validität = Messung des Zielkonstrukts = Gültigkeit inhaltlicher Aussagen auf Grundlage von Testergebnissen = in welchem Ausmaß misst Test in der jeweiligen Situation das, was der Test messen soll formal = Anteil der Zielkonstruktvarianz an Gesamtvarianz
Gleichungen wären mathematisch nur korrekt, wenn Zielkonstrukt und Bias nicht miteinander korrelieren würden selten Formeln dienen eher der formalen Unterscheidung von Reliabilität und Validität
Kritische Anmerkungen zur Klassischen Testtheorie Axiome der KTT in Praxis nicht immer haltbar o Bias wird wahrem Wert zugerechnet o keine Verbindung zwischen Fähigkeit / Eigenschaft / Merkmal und Itembeantwortung o wahre Leistungseffekte können durch Übung oder Transfereffekte verändert werden damit ist zu bezweifeln o Annahme eines fehlenden Zusammenhangs zwischen wahrem Wert und Messfehler o Konstanz des wahren Wertes über Messwiederholungen Verletzung der Annahme der Eindimensionalität o Über- und ggf. auch Unterschätzung von wahrem Wert und Messgenauigkeit eines Tests Fischer (1974): ungenauere Messungen bei extrem hohen bzw. extrem niedrigen Fähigkeitsausprägungen o in diesen Bereichen auch geringere Stichproben
Seite 8
3421 – Grundlagen der Testkonstruktion und Vorlesungen
-
KTT nimmt Eindimensionalität an, überprüft diese Annahme aber nicht o Möglichkeit des Aufzeigens solcher Verletzungen: konfirmatorische Faktorenanalyse
-
weiteres Problem: Testwerte der KTT stichprobenabhängig o je nach Referenzgruppe andere Bedeutung der individuellen Leistung o oft Gütekriterien für verschiedene Teilstichproben notwendig
-
KTT trotzdem in Praxis bewährt
1.3.3 -
Rasch-Modell o untersucht Zusammenhang zwischen Fähigkeit / Eigenschaft einer Person und Wahrscheinlichkeit, mit der diese Person Aufgabe löst, die besagte Fähigkeit / Eigenschaft messen soll o Untersuchung von Antwortmustern, die bestimmtem Modell folgen müssen o Lösungswahrscheinlichkeit hängt ab Personparameter: Fähigkeit oder Eigenschaftsausprägung einer Person Itemparameter: Schwierigkeit eines Items beides wird im Rahmen von PTT-Analysen empirisch geschätzt Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist dabei probabilistisch mit steigender Personenfähigkeit nimmt Wahrscheinlichkeit einer Itemlösung zu
-
Unterschied zur KTT: Modelltest möglich o Zulässigkeit der Summation und damit Skalenniveau wird geprüft o Prüfung der Eindimensionalität o Prüfungen lassen sich auch auf KTT-Modelle anwenden wird Modell nicht durch Modelltest abgelehnt, so misst der Summenwert den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeit) o Summenwert ist erschöpfende Sta...