Diagnostik Gütekriterien PDF

Title Diagnostik Gütekriterien
Course EWS Examensvorbereitung Psychologie
Institution Universität Regensburg
Pages 7
File Size 156.1 KB
File Type PDF
Total Downloads 39
Total Views 134

Summary

alt...


Description

2. Gütekriterien 

ermöglichen Aussage und Urteil über die Qualität einer Messung

2.1 Objektivität Objektivität: Unter Objektivität eines Tests verstehen wir den Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind. Ein Test wäre demnach völlig objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen gelangen. ~ Vergleichbarkeit (Lienert 1967)  

Objektivität ist Voraussetzung für Zuverlässigkeit, aber eine hohe Objektivität bedeutet nicht immer gleich eine hohe Zuverlässigkeit Intersubjektive Einflüsse auf eine Messung sollen ausgeschaltet werden

2.1.1 Durchführungsobjektivität Durchführungsobjektivität: Standardisierung aller Bedingungen bei der Testdurchführung ~ Bedingungskonstanz (Mietzel 2007) Durchführungsobjektivität: Ergebnis soll unabhängig von zufälligen oder systematischen Verhaltensvariationen sein, die ihrerseits das gezeigte Verhalten der Probanden beeinflussen könnten. ~ Bedingungskonstanz (Lukesch 1998) 





Maximierung (Lukesch 1998)  gleiche Instruktion und Aufgabenstellung für alle (schriftlich oder Tonband) und vorgeschaltete nicht bewertete Übungsaufgaben, um Verständnis zu sichern  gleiche situative Bedingungen z.B. Lärm, Licht, Tageszeit…  soziale Interaktion zwischen Proband und Untersuche auf Minimum, damit Untersucher nicht unbewusst Einfluss auf Proband nimmt Probleme (Lukesch 1998)  trotz mechanischer Hilfen Beeinflussung durch Wortlaut, Betonung…  unkontrollierbare Unterschiede zwischen den Probanden z.B. Aufgeregtheit situative Faktoren (Zeit, Hilfsmittel, Lärm…) können kontrolliert werden im Gegensatz zu personalen Faktoren (Ermüdung, vorherige Beschäftigung, Drogen…)

2.1.2 Auswertungsobjektivität Auswertungsobjektivität: das Ergebnis sollte unabhängig vom Untersucher in Zahlen oder kategorialen Einordnungen transformiert werden; gleiche Leistung sollte mit gleicher Zahl bewertet werden. (Lukesch 1998) 

hoch bei Aufgaben mit Alternativantworten (richtig oder falsch) und bei MehrfachantwortAufgaben (multiple choice)

 

niedrig bei freier Aufgabenbeantwortung mit freier Ausdruckweise Maximierung (Lukesch 1998)  numerische oder kategoriale Auswertungsregeln zu einem Kriterium  Schablonenauswertung bei geschlossenen Aufgabenformen z.B. bei multiple choice  bei freien Fragen vorher Kriterienkataloge festlegen und beibehalten

2.1.3 Interpretationsobjektivität Interpretationsobjektivität: Unabhängigkeit einer Messergebnisbewertung vom Anwender eines Tests; aus dem gleichen Testergebnis werden übereinstimmende Schlüsse gezogen; (Mietzel 2007) Interpretationsobjektivität: aus den Ergebnissen sollen gleiche diagnostische Schlüsse gezogen werden; gleiches Ergebnis soll gleich interpretiert werden. (Lukesch 1998)  

optimal bei normierten Leistungstests und Einordnung in Normtabellen Maximierung  feste Regeln für diagnostische Schlussfolgerungen z.B. Normtabellen  Notengebung: evtl. Normalverteilung schaffen, 50% = 4  möglichst umfassende Dokumentation von Datenerhebungen und –analysen

2.2 Reliabilität Reliabilität: Unter Reliabilität eines Tests versteht man den Grad an Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst. ~ Zuverlässigkeit oder formale Testgenauigkeit (Lienert 1967)

 

 

hohe Zuverlässigkeit bedeutet nicht immer gleich auch hohe Gültigkeit (manchmal schließt sich beides gegenseitig aus! Reliabilitätskoeffizient: gibt ab, in welchem Maße unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden übereinstimmen und in welchem Maße das Testergebnis reproduzierbar ist (Lienert 1969)  durch Korrelation wird Zusammenhang zwischen Werten gemessen aber es können keine Kausalbeziehungen errechnet werden Maximierung durch Minimierung von Messfehlern Probleme ~ diese müssen zur Reliabilitätserhöhung optimiert werden  Ungenauigkeit des Messinstrumentes  Umgebungsfaktoren z.B. Lärm, abgebrochene Bleistifte…  temporäre Veränderungen des Probanden z.B. Krankheit, Müdigkeit, Sorgen…  ungenaue Durchführung und Auswertung durch den Versuchsleiter z.B. unklare Aufgaben, ungenaue Instruktion…

2.2.1 Testwiederholungsreliabilität Testwiederholungsmethode: Messung (gleicher Aufgaben und gleiche Probanden) wird wiederholt und der Unterschied zwischen erster und zweiter Messung wird korrelativ im Koeffizient der zeitlichen Stabilität festgestellt. (Lukesch 1998) Wiederholungsreliabilität: bei erneuter Messung zu einem späteren Zeitpunkt und Vergleich der beiden Testungen sollte Koeffizient der zeitlichen Stabilität möglichst hoch sein.



 

Probleme (Lukesch 1998)  Ungenauigkeit des Messinstrumentes  Übung oder Erinnerung aus dem ersten Testdurchlauf beeinflussen oder stabilisieren das Ergebnis  Gedächtniseffekte wandeln unbestimmten Teil der zufälligen Varianz in eine systematische um  Frage der Zeitstabilität muss für jedes Merkmal individuell geklärt werden  Koeffizient ist von der Zeitspanne zwischen den Tests abhängig z.B. bei längerer Zeitspanne können nichtvorhersagbare Veränderungen oder rückläufige Gedächtniseffekte auftreten  Itemstichprobe geht in wahre Varianz ein und erhöht Messgenauigkeit ungebührlich  Korrelationskoeffizient ist bei selegierten Stichproben geringer als bei unausgelesenen Einflüsse dieser Methode dürfen nicht überschätzt werden bei Leistungsmessung nicht verwendbar wegen Übungseffekten und weil Lernleistung keine stabiles Merkmal ist

2.2.2 Paralleltest-Reliabilität Paralleltest-Reliabilität: bei Messung mit zwei oder mehr gleichwertigen (parallelen) Test und Vergleich der Varianten sollte die Korrelation möglichst hoch sein. Paralleltest-Methode: Konstruktion mehrerer gleichwertiger (paralleler) Tests um Schwierigkeiten der Wiederholung zu mindern; die Ergebnisse beider Verfahren werden korrelativ im Äquivalenzkoeffizient verglichen; Test werden zeitlich versetzt durchgeführt, um auch die Stabilität nachzuweisen; (Lukesch 1998) 

Problem: wann sind Tests parallel? (Votaw 1948) > Gleichwertigkeit kaum möglich  zweimal repräsentative Zufallsstichprobe  Generierungsregeln, um die paarweise Gleichwertigkeit von Items zu sichern  statistische Prüfung: gleicher Mittelwert, Varianz, Iteminterkorrelation und Validitätsanspruch

2.2.3 Split-Half-Reliabilität Split-Half-Reliabilität (Testhalbierungsreliabilität): bei Aufteilung des Tests im Nachhinein in zwei Teile sollte die Korrelation der beiden Teile möglichst hoch sein.

Split-Half-Methode (Testhalbierungsmethode): ein Testdurchgang, aber spätere Teilung der Testergebnisse und Prüfung ob Testhälften einander gleichwertig sind in einer korrelativen Analyse (Koeffizient der internen Konsistenz). (Lukesch 1998)  

Beeinflussung durch Ermüdung oder Aufmerksamkeitsschwankungen even-odd-Methode bei Schwierigkeitsstaffelung: alle geraden Aufgaben werden mit allen ungeraden Aufgaben korrelativ verglichen

2.2.4 Konsistenzanalyse Konsistenzanalyse: Test wird in alle Items zerlegt, die er messen soll und die Korrelation der Einzelitems soll möglichst hoch sein (Homogenitätskoeffizient). (Lukesch 1998)

2.2.5 Standardmessfehler  

Reliabilitätskoeffizienten helfen bei der Abschätzung von Messfehlern einer Messung durch den Standardmessfehler lässt sich das Vertrauensintervall (Bereich in dem der wahre Testwert mit einer bestimmten Irrtumswahrscheinlichkeit liegt) abschätzen  zur Prüfung von Unterschieden zwischen Testwerten z.B. keine Überlappung der Vertrauensintervalle = signifikanter Unterschied

2.3 Validität Validität: Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise misst, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich misst. Bei einem vollkommen validen Test lassen die Ergebnisse Rückschlüsse auf Ausprägungsgrad des gemessenen Persönlichkeitsmerkmal oder Verhaltensmerkmal zu. ~ Gültigkeit (Lienert 1967)

  

inwieweit erfüllt ein Test die an ihn gestellten Forderungen? im Gegensatz zu Objektivität und Reliabilität kein formelles sondern ein inhaltliches Kriterium Maximierung  Übereinstimmung von Testinhalt und Unterrichtsinhalt  eindeutige Arbeitsanweisungen und klar formulierte Aufgaben  Operationalisierung der Lernziele  Lehrer sollte inhaltliche Analyse durchführen

2.3.1 inhaltliche Validität inhaltliche Validität: Test(elemente) repräsentieren das in Frage stehende und zu messende Persönlichkeitsmerkmale in optimaler Weise. Der Test selbst ist ein optimales Kriterium für das Persönlichkeitsmerkmal. (Lukesch 1998)

 





exakte Definition des zu messenden Verhaltens notwendig Prüfung der Fragen: Diagnostiziert Test ob Unterrichtsziele erreicht wurden? Werden Ziele durch Test angemessen repräsentiert?  Schule: Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen, deren Kenntnis es zu prüfen gilt! horizontaler Schluss: von Stichprobe auf Universum aus dem die Stichprobe stammt  Angabe welcher Gesamtverhaltensbereich repräsentiert werden soll und Auswahl vergleichbarer Items aus diesem Bereich  Angabe des Koeffizient der inneren Konsistenz zwischen den Items Problem: Urteil der Fachleute ist auch immer subjektiv und Transparenz (Test sollte nicht immer unmittelbar durchschaubar sein)  inhaltliche Validität ist kein endgültiger Beleg für praktische Brauchbarkeit oder theoretische Bedeutsamkeit ~ logische oder Augenscheinlichkeitsvalidität

2.3.2 kriteriumsorientierte Gültigkeit kriteriumbezogene Gültigkeit: Vergleich der Testergebnisse mit einem externen Kriterium. (Mietzel 2007)

2.3.3 empirische Validität empirische Validität: Schlussfolgerungen und Voraussagungen zu gleichzeitigem oder zukünftigem Verhalten sollten aufgrund eines empirischen Nachweises möglich sein. (Lukesch 1998) 

 

Gleichzeitigkeitsvalidität (Verhalten auf das geschlossen wird ist gleichzeitig aber außerhalb der Testsituation nachweisbar) vs. Vorhersagevalidität (Verhalten auf das geschlossen wird ist in Zukunft/Vergangenheit aber außerhalb der Testsituation nachweisbar) (Cronbach 1970) innere Validität (Kriterium selbst ist wieder ein Test) vs. äußere Validität (Kriterium ist kein Test sondern ein anderer Verhaltensaspekt) Probleme:  welche Leistung/welches Verhalten gilt als Kriterium  niedrige Korrelation zwischen Tests und Kriteriumsmesswert macht Test nicht sinnlos: kriteriumsorientierte Validitätsstudien sind sehr spezifisch und geben nur Auskunft über Enge des Zusammenhangs zwischen Testverhalten und einen Aspekt des Kriteriumsverhaltens  differentielle Validität: Koeffizient sagt nur etwas über die Validität eines bestimmten Tests bezogen auf ein spezielles Kriterium, das bei einer bestimmten Personenklasse

 



unter gewissen Versuchsbedingungen durch einen Testleiter und zu einem bestimmten Zeitpunkt erfasst wurde ~ val (t, c, p, u, v, z)  unterschiedliche Validitäten für unterschiedliche Fragestellungen  Kreuzvalidierung nötig: Ergebnisse erst vertrauenswürdig wenn sie an zweiter unabhängiger Stichprobe durch anderen Versuchsleiter geprüft werden und andere Beurteiler das Kriteriumsverhalten bewerten Interesse eher dafür ob ein Testverhalten ein bestimmtes Kriteriumsverhalten vorhersagt und dieser Zusammenhang soll empirisch ausgedrückt werden diagnostische Entscheidungen  Selektionsentscheidungen: Probanden werden zu verschiedenen Gruppen zugewiesen (Effektivität: Prozentsatz der richtigen Entscheidungen eines diagnostischen Verfahrens; Spezifität: Auswahl der als richtig klassifizierten Geeigneten; Sensitivität: Anteil der als richtig klassifizierten Nichtgeeigneten)  Selektionsraten: wie viele von den getesteten Personen sollen angenommen oder abgewiesen werden  Vorteilung von Eignungs- und Nichteignungsquoten in der Population empirische Validität ist notwendig aber nicht ausreichend um einen Test wissenschaftlich bedeutsam zu machen

2.3.4 Konstruktvalidität Konstruktvalidität: Validierung von Tests über Konstrukte erfolgt durch die Einordnung in ein theoretisches Bezugssystem aus dem dann prüfbare Hypothesen abgeleitet werden können. (Schlussfolgerungen und Aussagen über theoretische Konstrukte sollten möglich sein) (Lukesch 1998) Konstrukt: Begriffe zur Beschreibung eines Individuums über relativ stabile Fähigkeiten, Einstellungen oder Eigenschaften die in vielen Situationen auftreten und nicht direkt beobachtbar sind z.B. Intelligenz (Lukesch 1998)   

    

Tests = Operationalisierungsversuche von Konstrukten Test korreliert mit anderen Kriterien, die mit Konstrukt verbunden sind mögliche Aussagen: nomologische Aussagen (gesetzartig; über Enge der Beziehung zwischen Konstrukten, zwischen Konstrukt und empirischen Begriff oder zwischen Begriffen) und empirische Stützung der Hypothesen Probleme: Fehler in Theorie oder Messinstrument faktorielle Validität: prüft Anzahl von Faktoren im Test über Faktorenanalyse  sparsamere Beschreibung korrelativer Beziehungen zwischen Variablen konvergente Validität: Ergebnisse eines diagnostischen Verfahrens, das ein bestimmtes Konstrukt erfassen soll müssen mit Verfahren mit gleichem Anspruch übereinstimmen divergente Validität: keine Übereinstimmung mit Verfahren nötig, die konstruktfremde Eigenschaften messen multitrait-multimethod Validierung: z.B. 3 verschiedene Eigenschaften werden mit 3 verschiedenen Verfahren gemessen  Interkorrelationen werden in Matrix eingetragen aus der Reliabilität, konvergente und divergente Validität und Varianz auslesbar sind





Verfälschbarkeit durch Probanden: aktive Zielorientierung  Verfälschbarkeit: Ausmaß der individuellen Kontrolle über Art und Inhalt der verlangten bzw. gelieferten Info in einem Test  allgemeine Tendenzen: Simulation (bewusste Vortäuschung von Symptomen oder übertriebene problematische Selbstdarstellung), Aggravation (evtl. unbeabsichtigte Symptomvermehrung und starker Ausdruck im Verhalten), Dissimulation (bewusstes Verheimlichen unerwünschten Verhaltens), Diminuation (unbewusstes Verheimlichen von unerwünschten Tatbeständen)  soziale Erwünschtheit: Verfälschungstendenz bei Fragebögen oder diagnostischen Gesprächen, um sozial erwünschtes Bild von sich selbst zu zeichnen (Kontrolle: Itempaare mit gleicher sozialer Erwünschtheit von denen 1 ausgewählt werden muss, Items die oft verfälscht werden streichen, Lügenskalen) Verfälschbarkeit durch Messinstrumente: Antworttendenzen  JA-sage-Tendenz bei unklar formulierten Items  Effekte der Anzahl der Abstufungen der Antwortskalen: Neigung zu Extrema, Mitteltendenz, Ausweichtendenz  Reihenfolgeeffekte: Beantwortung eines Items beeinflusst die Beantwortung eines späteren Items  Assimilations- und Kontrasteffekte: Eigendarstellung ähnlich oder gegensätzlich zu den Vorgaben

2.4 Nebengütekriterien     

Ökonomie: kurze Durchführungszeit, wenig Material, einfach Handhabung, als Gruppentest durchführbar, schnell und bequem auswertbar Nützlichkeit: untersucht wofür praktisches Bedürfnis besteht z.B. etwas was noch kein anderer Test erfolgreich untersucht hat Zumutbarkeit: Ausmaß in dem ein Test einen Probanden in zeitlicher, psychischer, emotionaler und körperlicher Hinsicht beansprucht Vergleichbarkeit: wenn ein oder mehrere Paralleltests oder validitätsähnliche Test vorhanden sind Akzeptanz: Verfahren in einer Gesellschaft oder bestimmten Gruppe anerkannt  subjektive Meinungen, Bewertung oder gesellschaftspolitische Überzeugung...


Similar Free PDFs