Zusammenfassung - Grundlagen der Testkonstruktion PDF

Title	Zusammenfassung - Grundlagen der Testkonstruktion
Course	Grundlagen der Testkonstruktion
Institution	FernUniversität in Hagen
Pages	91
File Size	4.3 MB
File Type	PDF
Total Downloads	67
Total Views	138

Preview

CLICK TO PREVIEW PDF

Summary

Grundlagen der Testkonstruktion...

Description

3421 Grundlagen der Testkonstruktion M6 - Sommersemester 2013 Barbara Trusch 03.06.2013

Zusammenfassung des Studienbriefes und der Vorlesungen

3421 – Grundlagen der Testkonstruktion und Vorlesungen

Inhaltsverzeichnis 1 1.1 1.2 1.3 1.3.1 1.3.2 1.3.3

Grundlagen psychologischer Testverfahren ................................................................ 2 Anwendungsbereiche und Klassifikation von Testverfahren........................................ 3 Tests und Testtheorie ................................................................................................. 4 Grundlagen der Testtheorie ........................................................................................ 5 Einführung in die Klassische Testtheorie (KTT) ....................................................... 6 Kritische Anmerkungen zur Klassischen Testtheorie ............................................... 8 Grundideen der Probabilistischen Testtheorie (PTT) ............................................... 9

2 2.1 2.2 2.3 2.4

Testkonstruktion: Von der Planung zum ersten Entwurf .............................................. 9 Merkmals- und Geltungsbereich ................................................................................10 Festlegung des generellen Konstruktionsprinzips ......................................................11 Generierung eines Itempools .....................................................................................14 Sprachliche Formulierungsregeln und Antwortformate ...............................................16

3 Itemanalyse: Kürzung und Revision des Entwurfs .....................................................21 3.1 Itemanalyse nach Klassischer Testtheorie (KTT) .......................................................21 3.1.1 Rekodierung, Deskriptive Itemanalyse und Itemschwierigkeiten.............................22 3.1.2 Trennschärfenanalyse ............................................................................................25 3.2 Überblick über die Probabilistische Testtheorie..........................................................30 3.2.1 Grundlagen des Rasch-Modells .............................................................................30 3.2.2 Weitere probabilistische Testmodelle für dichotome Daten ....................................34 3.2.3 Probabilistische Modelle für Ratingskalen ..............................................................36 4 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.2 4.2.1 4.2.2 4.3 4.4

Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung.................38 Explorative Faktorenanalyse (EFA)............................................................................38 Grundlagen der Faktorenanalyse ...........................................................................38 Varianten und Vorgehensweise bei der Explorativen Faktorenanalyse...................39 Beispiel für die Durchführung einer EFA mit SPSS.................................................46 Bewertung der Explorativen Faktorenanalyse ........................................................49 Konfirmatorische Faktorenanalyse (CFA) ..................................................................49 Grundbegriffe Linearer Strukturgleichungsmodelle (SEM) ......................................49 Vorgehensweise bei der Konfirmatorischen Faktorenanalyse ................................52 Aggregation zu Skalenwerten, Normierung und Interpretation ...................................62 Zusammenfassung der Schritte der Testkonstruktion ................................................66

5 5.1 5.2 5.2.1 5.2.2 5.3 5.3.1 5.3.2 5.3.3 5.4 5.4.1 5.4.2

Evaluation psychologischer Testverfahren .................................................................67 Richtlinien und Beurteilungssysteme für Tests ...........................................................67 Psychometrische Gütekriterien ..................................................................................70 Objektivität und Reliabilität .....................................................................................70 Validität ..................................................................................................................74 Weitere allgemeine Gütekriterien ...............................................................................84 Kriterien mit vorwiegend praktischem Anwendungsbezug ......................................84 Kriterien mit Bezug zu Rechten und Reaktionen der Teilnehmer ............................85 Kriterien mit Bezug zum Verhalten der Teilnehmer ................................................86 Gütekriterien für die Einzelfalldiagnostik ....................................................................87 Anforderungen an die Normierung .........................................................................87 Kennwerte mit Bezug zur Messgenauigkeit ............................................................88

Seite 1

3421 – Grundlagen der Testkonstruktion und Vorlesungen

1

Grundlagen psychologischer Testverfahren -

Bezeichnung Test nicht einheitlich o engeres Verständnis  Verfahren, deren Ergebnis frei von jeder subjektiven Beurteilung seitens der Testteilnehmer entstehen  z. B. Fähigkeits- und Leistungstests o breiteres Konzept  schließt auch subjektive Fragebogenverfahren ein  Unterscheidung wird lediglich zur Klassifikation von Testverfahren herangezogen

-

Definition nach Lienert und Raatz (1998): o Ein psychologischer Test ist „ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung“. o Bestimmungsstücke der Definition  Wissenschaftlichkeit  Erfassung von relativ eindeutig definierten und nachweisbar relevanten Merkmalen  Konstruktion baut auf statistischen Modellen psychologischer Testtheorie auf  muss sich gemäß psychometrischer Gütekriterien empirisch bewähren  Dokumentation in für Fachleute im Detail nachvollziehbarer Form  Testmanuale oder Handanweisungen  Routineverfahren  Inhalt, Verfahrensablauf, Bewertung der Aussagen standardisiert und damit routinemäßig wiederholbar  Persönlichkeitsmerkmal  weit zu verstehen  schließt alle Arten interindividueller Differenzen ein  Testergebnis  quantitative Aussage über Merkmal  Reaktionen auf Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu Testwert (Score) zusammengefasst  Rohwert erlaubt relative Aussage über individuelle Merkmalsausprägung

Der einfachste Weg, wissenschaftliche von unwissenschaftlichen Testverfahren zu unterscheiden, ist, nach der Existenz eines Testmanuals oder einer äquivalenten Dokumentation zu fragen. Deren Nichtvorliegen ist ein zuverlässiges Ausschlusskriterium; allerding garantiert das bloße Vorliegen noch nicht die Wissenschaftlichkeit des Verfahrens und schon gar nicht die Eignung für einen bestimmten Zweck,

-

Entwicklung der modernen Testtheorie besonders durch Fortschritte beim Bemühen um Messung der menschlichen Intelligent im 19. und frühen 20 Jh o Sir Francis Galton (1822-1911) o Alfred Binet (1857-1911) o Entwicklung des Army Alpha Tests im 1. Weltkrieg

Seite 2

3421 – Grundlagen der Testkonstruktion und Vorlesungen

1.1

Anwendungsbereiche und Klassifikation von Testverfahren -

-

Konstruktion von Testverfahren möglich für o genau spezifizierte Anwendungen o Anwendungen auf verschiedenen Gebieten zentrale Bedeutung für praktischen Einsatz, dass Anwendung in einem spezifischen Gebiet theoretisch und empirisch begründet werden kann o Güte eines Test kann nicht unabhängig vom Einsatzzweck beurteilt werden Klassifikation von Tests o Anwendungsbereiche o

Inhalt  Leistungstests  Entwicklungstests, Intelligenztests, Allgemeine Leistungstests, Schultests, spezielle Funktionsprüfungs- und Eignungstests  geben Aufschluss über Fähigkeiten und Fertigkeiten  Vielzahl von Problemlöseaufgaben mit Beantwortung richtig / falsch  Psychometrische Persönlichkeitstests  Persönlichkeits-Struktur-Tests, Einstellungs- und Interessentests, Klinische Tests  Fragebögen zu Gefühlen, Vorlieben, Abneigungen, Interessen und Meinungen  subjektive Selbstbeurteilung oder Selbstbeschreibung ohne richtige oder falsche Antworten  Inventare = Erfassung mehrerer Merkmale = mehrere Subtests  Persönlichkeits-Entfaltungsverfahren  Formdeuteverfahren, Verbal-thematische Verfahren, Zeichnerische und Gestaltungsverfahren  weitgehend unstrukturiertes Material oder mehrdeutige Bilder  unbewusste Motive, Gefühle, Einstellungen  Konstruktion häufig nicht nach testtheoretischen Vorgaben  Auswertung mit weiten subjektiven Interpretationsspielräumen  semi-projektive Tests: Verbindung Projektion mit Standardisierung

o

Testungsstrategie  normorientierte Konstrukttests  erlauben wissenschaftlich begründbaren Rückschluss vom Testverhalten auf dahinter liegende Eigenschaften und Fähigkeiten (Konstrukte)  normorientiert, da Testergebnis einer Person relativ zum Durchschnitt (Norm) einer Bezugsgruppe gesehen wird  kriterienorientierte Tests  Vergleich mit Idealnorm = Lehrziel  keine Aussagen über Fähigkeiten und Eigenschaften

Seite 3

3421 – Grundlagen der Testkonstruktion und Vorlesungen

o

1.2

formale Kriterien  Speed vs. Power  Schwierigkeitsgrad jeweils ansteigend  Speedtests = zeitgebundene Schnelligkeitstests o alle Items lösbar  Powertests = Niveautests o Items erreichen Niveau, an dem Probanden scheitern  ein- und mehrdimensionale Tests  Gruppen- bzw. Individualtests  verbale vs. nicht-verbale Tests  nach Technologie  Papier- und Bleistift-Tests  PC-gestützte Tests  Online-Tests  computergestützte adaptive Tests

Tests und Testtheorie -

-

psychologische Tests o Klasse in bestimmter Weise definierter Verfahren zur Messung psychologischer Merkmale psychologische Testtheorie o beschäftigt sich mit Zusammenhang dieser Merkmale mit Testverhalten = Schlüsse + im allgemeinen Sinne Qualität der Schlussfolgerungen o wird durch formale, mathematisch formulierte Modelle beschrieben Items = Aufgaben = einzelne Verhaltensangelegenheiten o Item besteht aus  Reiz (Testaufgabe oder Frage)  Anzahl möglicher Reaktionen (Antwortmöglichkeiten)  offene Antwortformate o z. B. projektive Tests o Zahl möglicher Projektionen unbegrenzt  geschlossenes Antwortformat o wird meistens verwendet o von jedem Item wird angenommen, dass es ein beobachtbarer Indikator = manifeste Variable für ein zugrunde liegendes nicht beobachtbares Konstrukt = latente Variable sei o beobachtetes Antwortverhalten liefert also Hinweis auf Ausprägung der latenten Variable, für die man sich eigentlich interessiert o Hinweise einzeln nicht perfekt  Zusammenfassung zu Skalen o Testscore = Gesamtwert wird nach fester Vorschrift berechnet: meist Aufsummierung oder Durchschnittsbildung  wird als eigentlicher Indikator für Ausprägung des Konstrukts angesehen

Seite 4

3421 – Grundlagen der Testkonstruktion und Vorlesungen

-

Testtheorie o beschäftigt sich konkret damit, in welchem Ausmaß es zulässig / sinnvoll ist, einzelne Items als Indikatoren des latenten Konstrukts anzusehen, sie zu einem oder mehreren Testscores zusammenzufassen und aus diesem Wert wieder auf Ausprägung des psychologischen Merkmals zu schließen

In der Testtheorie geht es um die Beurteilung sowohl des Gesamtwertes im Test als auch von dessen Bestandteilen hinsichtlich des Zusammenhangs zwischen Testverhalten und psychologischen Merkmalen. -

1.3

Testtheorie lässt sich auch auf andere Erhebungsmethoden anwenden  psychometrische Verfahren o Tests wurden nach der Lehre von der quantitativen Messung psychischer Merkmale (Psychometrie) entwickelt o da gleiche Prinzipien oft auch zur nachträglichen Beurteilung anderer Verfahren herangezogen werden können, geht Gegenstandsbereich der Testtheorie über diagnostisches Instrument Test hinaus Grundlagen der Testtheorie

-

Beispiel: Klausur o Anspruch, dass Lerninhalte repräsentativ und auf angemessenem Niveau abgebildet werden sollen o Repräsentativität  ausgewogene Abbildung der unterschiedlichen, wesentlichen Inhaltsbereiche  keine irrelevanten Inhalte  entspricht testtheoretisch der Inhaltsvalidität o Identifikation misslungener Aufgaben

Seite 5

3421 – Grundlagen der Testkonstruktion und Vorlesungen

1.3.1

Einführung in die Klassische Testtheorie (KTT)

-

Grundlage der meisten psychologischen Testverfahren (95 %) Probabilistische Testtheorie überwindet Schwächen, aber bei erheblicher höherer mathematischer Komplexität

-

Vorteil KTT o Einfachheit o konzipierte Test haben sich bewährt

-

KTT o

o o o

akzeptiert Variation von Testergebnissen einzelner Personen bei gleichem Test  Übungs- und Transfereffekte  unsystematische äußere Einflüsse  unsystematische innere Einflüsse Fehlerbegriff in KTT berücksichtigt nur unsystematische Fehler darüber hinaus keine Annahme, wie Items beantwortet werden oder wie Testleistung zustande kommt nur Berücksichtigung, aus welchen Komponenten Messwerte bestehen  KTT ist reine Theorie der Messfehler bzw. der Freiheit von Messfehlern oder Reliabilität

-

Voraussetzung von Grundannahmen = Axiomen, aus denen sich bestimmte Folgerungen logisch ergeben o Ausgangspunkt ist Varianz von Messwerten (1) Interitemvarianz: Messwerte können schon bei der Testung einer einzelnen Person bei einer einzigen Gelegenheit zwischen den Teilen (Items) eines Tests variieren (2) Messwerte können intraindividuell variieren, wenn dieselbe Person mehrfach mit den gleichen Verfahren getestet wird (3) Messwerte können interindividuell zwischen verschiedenen Teilnehmern einer einzelnen Testung variieren

-

bezüglich (2) und (3) unterstellt KTT Zufallsziehung und Zufallsfehler o bei beliebiger Testwiederholung  Xi Annäherung an Normalverteilung o Mittelwert ist als wahrer Wert Ti (true score) definiert  Existenzaxiom  entspricht Verhaltenstendenz o jede einzelne Messung ist mit Fehler Ei behaftet  umfasst per Definition alle unkontrollierten und unsystematischen Störeinflüsse  schwankt im Ausmaß ebenfalls zufällig um einen Mittelwert

-

zentrales Grundaxiom der KTT: jeder beobachtete Wert setzt sich additiv aus einem wahren Wert und einer Fehlerkomponente zusammen

-

damit ist Messfehler Differenz zwischen beobachtetem Testwert einer Person und wahrem Wert

Seite 6

3421 – Grundlagen der Testkonstruktion und Vorlesungen

-

zwei Folgerungen, nach Steyer und Eid (2001) aus logischen Gründen wahr o Mittelwert M des Messfehlers ist Null  gilt sowohl für unendlich viele Messungen einer Person i  als auch für Mittelwert der Fehler in einer (Teil-)Population P

o

-

kein Zusammenhang r zwischen Messfehler und wahrem Wert  gilt ebenfalls für Person als auch (Teil-)Population  Messfehler hängt damit nicht von Ausprägung (hoch, niedrig, durchschnittlich) des wahren Werts ab

zusätzliche Annahmen o Messfehler eines Test A weist keinen Zusammenhang mit Messfehler eines Test B auf

Annahme gilt nur dann, wenn beide Messvorgänge experimentell (nicht empirisch) unabhängig sind  Steyer und Eid (2001): Annahme kann in der Praxis falsch sein (Annahme bequem, aber nicht zwingend notwendig) Unabhängigkeit von Messfehler und wahrem Wert gilt auch überkreuz: Messfehler von Test A weist keinen Zusammenhang mit wahrem Wert aus Test B auf 

o

-

aus X = T + E ergibt sich, dass mindestens Intervallskalenniveau vorausgesetzt wird o bei den meisten Fragebögen fraglich o  „Per fiat“-Messung („Es möge sein“)

-

Reliabilität rtt eines Testes (= Messgenauigkeit) o Erweiterung der Grundgleichung auf viele Messungen (entweder einer Person oder in Population) o jeweils Verteilungen mit Streuung zu beobachteten Werten, wahren Werten und Messfehlern o Reliabilität = Anteil der wahren Varianz ST² an der gesamten beobachteten Varianz SX² o da nach (2) keine Korrelation zwischen T und E  Addition der Varianzen möglich

Seite 7

3421 – Grundlagen der Testkonstruktion und Vorlesungen

o

Schätzung der Reliabliltät eines Tests

-

Reliabilität spielt auch für Prüfung der Genauigkeit einer einzelnen Messung wichtige Rolle o  wesentliche Information zur Bestimmung von Standardschätz- und Standardmessfehler

-

Validität o in T und ST² sind auch systematische Fehler zusammengefasst  bias o in KTT wird bias der wahren Varianz zugeschlagen o formal Erweiterung der Grundgleichung möglich, wenn T in C = Zielkonstrukt und B = Bias zerlegt wird

o

o

o o

1.3.2 -

-

-

-

Validität = Messung des Zielkonstrukts = Gültigkeit inhaltlicher Aussagen auf Grundlage von Testergebnissen = in welchem Ausmaß misst Test in der jeweiligen Situation das, was der Test messen soll formal = Anteil der Zielkonstruktvarianz an Gesamtvarianz

Gleichungen wären mathematisch nur korrekt, wenn Zielkonstrukt und Bias nicht miteinander korrelieren würden  selten Formeln dienen eher der formalen Unterscheidung von Reliabilität und Validität

Kritische Anmerkungen zur Klassischen Testtheorie Axiome der KTT in Praxis nicht immer haltbar o Bias wird wahrem Wert zugerechnet o keine Verbindung zwischen Fähigkeit / Eigenschaft / Merkmal und Itembeantwortung o wahre Leistungseffekte können durch Übung oder Transfereffekte verändert werden damit ist zu bezweifeln o Annahme eines fehlenden Zusammenhangs zwischen wahrem Wert und Messfehler o Konstanz des wahren Wertes über Messwiederholungen Verletzung der Annahme der Eindimensionalität o Über- und ggf. auch Unterschätzung von wahrem Wert und Messgenauigkeit eines Tests Fischer (1974): ungenauere Messungen bei extrem hohen bzw. extrem niedrigen Fähigkeitsausprägungen o in diesen Bereichen auch geringere Stichproben

Seite 8

3421 – Grundlagen der Testkonstruktion und Vorlesungen

-

KTT nimmt Eindimensionalität an, überprüft diese Annahme aber nicht o Möglichkeit des Aufzeigens solcher Verletzungen: konfirmatorische Faktorenanalyse

-

weiteres Problem: Testwerte der KTT stichprobenabhängig o je nach Referenzgruppe andere Bedeutung der individuellen Leistung o oft Gütekriterien für verschiedene Teilstichproben notwendig

-

KTT trotzdem in Praxis bewährt

1.3.3 -

Rasch-Modell o untersucht Zusammenhang zwischen Fähigkeit / Eigenschaft einer Person und Wahrscheinlichkeit, mit der diese Person Aufgabe löst, die besagte Fähigkeit / Eigenschaft messen soll o Untersuchung von Antwortmustern, die bestimmtem Modell folgen müssen o Lösungswahrscheinlichkeit hängt ab  Personparameter: Fähigkeit oder Eigenschaftsausprägung einer Person  Itemparameter: Schwierigkeit eines Items  beides wird im Rahmen von PTT-Analysen empirisch geschätzt  Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist dabei probabilistisch  mit steigender Personenfähigkeit nimmt Wahrscheinlichkeit einer Itemlösung zu

-

Unterschied zur KTT: Modelltest möglich o Zulässigkeit der Summation und damit Skalenniveau wird geprüft o Prüfung der Eindimensionalität o Prüfungen lassen sich auch auf KTT-Modelle anwenden wird Modell nicht durch Modelltest abgelehnt, so misst der Summenwert den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeit) o Summenwert ist erschöpfende Sta...