Diagnostik Schulleistungstests PDF

Title Diagnostik Schulleistungstests
Course EWS Examensvorbereitung Psychologie
Institution Universität Regensburg
Pages 10
File Size 202.9 KB
File Type PDF
Total Downloads 97
Total Views 133

Summary

alt...


Description

4. Schulleistungstests Schulleistungstests: Verfahren der Pädagogischen Diagnostik, mit deren Hilfe Ergebnisse geplanter und an Curricula orientierter Lernvorgänge möglichst objektiv, zuverlässig und gültig gemessen und durch Lehrende oder Beratende ausgewertet, interpretiert und für pädagogisches Handeln nutzbar gemacht werden können. (Ingenkamp 1997)

Schulleistungstests formelle Tests (von Experten erstellt) (sozial)normorientiert

informelle Tests (von Lehrern erstellt) kriteriumsorientiert

Leistung: beobachtbare Reaktion auf eine gestellte Aufgabe (Ergebnisse sind das Resultat der Reaktion und wenden aufgrund bestimmter Maßstäbe bewertet) (Rheinberg 1980) 

weitere Unterscheidungen  summativ (Lernprozess abschließend) vs. formativ (Lernprozess begleitend)  allgemein (fächerübergreifend v.a. Grundschule) vs. fächerspezifisch

4.1 formelle Schulleistungstests     

standardisierte Tests inhaltliche Validität muss immer aufgrund einer Lehrzielanalyse bestimmt werden kriteriumsorientierte Tests können bei anderer Standardisierung als normorientierte Tests verwendet werden normorientierte Tests enthalten meist Aufgaben mit mittlerem Lehrzielniveau von Testexperten entwickelt, Gütekriterien streng berücksichtigt, Normierung an einer Stichprobe, Ziel ist die Prüfung allgemeiner Lernziele

4.1.1 Testkonstruktion (Lukesch 1998) 4.1.1.1 normorientierte Tests 1. Analyse der Lehrpläne: anhand von Lehrzielen inhaltliche Validität sichern  Ergebnis ist Lehrzielmatrix: kombiniert Inhalts- und Verhaltensaspekte und Höhe der Anforderungen eines Lehrziels  aus Matrix können Aufgaben und deren Gewichtung ausgelesen werden 2. Entwurf von Testitems (Aufgaben) die für die einzelnen Zellen der Matrix repräsentativ sind

3. 4. 5.

6.

7.

 Antwortform: Auswahlantworten (richtig vs. falsch; multiple choice), Ordnungsantworten (Zuordnen) oder freie Beantwortung (Kurzaufsätze; Lücken)  Allgemeine Regeln zur Formulierung (Herbig 1972): klare Aufgabenstellung, nur eindeutige Begriffe, kein komplizierter Satzbau, Füllwörter und doppelte Negation vermeiden, keine verdeckten Hinweise, keine Stereotype…  Kurzantworten (Herbig 1972): nur 1 Wort/Satz als Lösung, ausreichend Platz lassen, Genauigkeitsgrad angeben, genug Abstand zwischen Lücken zum Sinnerhalt…  Zweifachwahlaufgaben (Herbig 1972): Kriterium zur Auswahl angeben, keine komplexen Sätze, keine Zitate ohne Zusammenhang…  Mehrfachantworten (Herbig 1972): direkte Frage oder unvollständige Sätze, negative Auswahl hervorheben, Alternativen müssen grammatisch in den Satz passen, Alternativen auf selben Niveau, Alternativen in logischer Folge einordnen … Vorerprobung an wenigen Fällen um Aufgabenverständnis zu prüfen (bei Problemen wieder zu Schritt 2) Testdurchführung an einer kleinen Stichprobe (200-400 Schüler)um Aufgaben- und Testlänge zu prüfen Aufgaben- und Testanalyse mit den Daten von Schritt 4  Aufgabenschwierigkeit: Einstieg leichter dann ansteigender Schwierigkeitsgrad  Distraktorenanalyse: Wahlhäufigkeit untersuchen z.B. sehr häufig eine falsche Antwort gewählt könnte vielleicht ein Instruktionsfehler sein  Trennschärfe berechnen: positiver Koeffizient (Proband mit hohem Gesamtwert haben Aufgabe richtig), negativer Koeffizient (Proband mit niedrigem Gesamtwert hat Aufgabe richtig), höchste Trennschärfe bei mittleren Aufgaben  Paralleltest durch Umstellen der Items  Reliabilitätsschätzung  Berechnung der Verteilungskennwerte: Mittelwert und Streuung der Aufgaben Testeichung an einer repräsentativen Stichprobe  Standardnormierung wenn Rohwerte eines Tests normalverteilt sind (Rohwerte in zWerte umgerechnet damit Mittelwert 0 und Streuung 1 ist)  Standardnorm-Äquivalente: z-Wert wird mit 100 addiert damit Mittelwert auf 100 liegt  Prozentrangnormen: einzelne Rohwertklassen machen gleichen Prozentanteil in der Gesamtverteilung aus (Problem: dichter Mittelbereich ist viel stärker differenziert als Außenbereich ~ Unterschiede machen sich überdeutlich bemerkbar) Testvalidierung:  empirisch an vielen kleinen Stichproben geprüf  konvergente, divergente und Vorhersagegültigkeit ebenfalls relevant

4.1.1.2 kriteriumsorientierte Tests 1. 2. 3. 4. 5.

Abgrenzung der Unterrichtseinheit die geprüf werden soll curriculare Analyse: repräsentativen Überblick herausziehen Aufgabenkonstruktion: wie bei normierten Tests Aufgabenanalyse: geringe Rolle keine Eichung sondern Einstufung der Ergebnisse (wurden Lehrziele erreicht?)

4.1.2 Gütekriterien 





Objektivität ist gegeben  Durchführungsobjektivität: sehr gut weil Instruktion schriflich fixiert dargeboten wird, es Beispiele und Übungsaufgaben gibt, der Anwendungszeitraum angegeben ist und die Beurteiler geschult sind  Auswertungsobjektivität: bei gebundenen Antwortformaten optimal (Schablone) und bei freien Antwortformen Kriterienkataloge  Interpretationsobjektivität: sehr gut weil es klare Regeln zur Interpretation der Ergebnisse gibt (Punktwerte/Normwerte ergeben Note) und die Objektivitätskoeffizienten (ÜKoeffizient usw.) sind im Beihef angegeben in der Regel werden alle 4 Arten der Reliabilität berücksichtigt  Basis: Stichprobenerhebung  Angabe der Reliabilitätskoeffzienten im Beihef Validität: sehr gut aber Lerngelegenheit wird kaum berücksichtigt  Inhaltsvalidität: Sicherung der curricularen Validität  curriculare Validiät (Items repräsentieren den vorgegebenen Lehrplan) ist hoch (Lukesch 1998)  Lerngelegenheit: Grad mit den Schüler aufgrund des Lehrangebotes tatsächlich die Möglichkeit hatte, die Inhalte des Schulleistungstests zu lernen (Lukesch 1998) ~ abhängig vom Fachlehrer (dieser sollte Punktwerte unter Einbezug der von ihm geschaffenen Lerngelegenheit festlegen)  empirische Validität: Vergleich der Ergebnisse aus den Stichproben mit Schulnoten oder Lehrerurteilen (Gleichzeitigkeitsvalidität), bessere prognostische Validität als Noten (Tent 1969) und Angabe der Koeffizienten im Beihef  Konstruktvalidität: sehr gut wegen hoher Objektivität, Standardisierung und Normierung, außerdem Angabe der Validitätskoeffizienten im Beihef

4.1.3 Vorteile          

gute Erfüllung der Gütekriterien deswegen auch Einsatz in Forschung möglich Normierung erlaubt Überprüfung des eigenen Benotungssystems > verhindert zu intensive Nutzung der sozialen Bezugsnorm Überprüfung des Leistungsstandes der Klasse und des eigenen Unterrichts gerechtere Selektion Hilfe bei der Entdeckung individueller Schwächen Überprüfung von Lernvoraussetzungen Einsatz zur Leistungsdifferenzierung Einsatz von Computerauswertung überregionaler Vergleich summative Evaluation

4.1.4 Kritik         

unfair wegen fehlender Berücksichtigung der Lerngelegenheit negative motivationale (schlechte Leistung wird wissenschaflich bestätigt) und soziale (Leistungsunterschiede werden überdeutlich) Folgen Erstarrung des Unterrichts weil nur noch auf den Schulleistungstest hingearbeitet wird Verarmung der Lehrpläne weil nur noch kognitive Lehrziele (leicht konstruier- und prüfbar) nicht für alle Unterrichtsfächer verfügbar und evtl. veraltet Erfassung von Lernergebnissen und nicht Lernleistungsvoraussetzungen unökonomisch weil hohe Kosten eher für kognitiven Bereich für Ergebnisse können nur schülerinterne Faktoren als relevant angesehen werden weil andere Bedingungen z.B. durch Lehrer/Schule nicht direkt ersichtlich sind

4.1.5 normorientierte Schulleistungstests normorientierte Schulleistungstests: wissenschafliches Routineverfahren zur Festlegung des Kenntnisstandes mit Aussagen über Leistungshöhe aufgrund des Vergleiches mit den Leistungen einer für Altersstufe, Schulstufe oder Schulart repräsentative Stichprobe. (Lukesch 1998 in Anlehnung an Lienert 1967) 



Einsatz in der Schule  Vergleich des Leistungsstandes der Klasse, Prüfen der Unterrichtseffektivität, Fairness des eigenen Benotungssystems, Leistungsdurchschnitt einer Klasse, Lehrplangemäßheit,  Objektivierungsmöglichkeit beim Schulwechsel  Lehr- und Lernsteuerung: Lernvoraussetzungen, Schwachstellen und Wissenstand prüfen  Unterrichtsdifferenzierung und Individualisierung  äußere Differenzierung: Einteilung in Leistungsgruppen  als Ersatz bzw. Ergänzung für Benotung Einsatz in der Forschung  Objektivierung pädagogischer Fragestellungen, Effektivitätsprüfung verschiedener Unterrichtsmethoden/Schulsystemen/Schülergruppen/Lehrplänen …

4.1.6 kriteriumsorientierte (lehrzielorientierte) Schulleistungstests kriteriumsorientierter Schulleistungstest: wissenschafliches Routineverfahren das zeigt, ob und eventuell wie gut ein bestimmtes Lehrziel erreicht wurde. (Fricke 1973) 

Vergleich zu normorientierten Tests

Interpretation Testwerte Bezug

Normorientierte Tests Kriteriumsorientierte Tests Nur sinnvoll im Vergleich zu anderen Einzeltests bereits sinnvoll Varianz nach wahrem und Nur wahre Testwerte beobachteten Testwert Normalverteilung und Note abhängig Leistungsziel erreich oder nicht



 



von den anderen (günstiger!) Kriterium ist ein definierter Verhaltensbereich mit einem Mindesttestwert der zeigt, ob Verhalten beherrscht wird (keine relative Auswertung) ~ Kriterien repräsentieren Lehrziel  Testitems sind Indikatoren für Lernerfolg Ob ein Ziel erreicht wurde kann durch Experteneinschätzungen, Außenkriterien oder eine errechnete Lösungswahrscheinlichkeit mit Fehlertoleranz festlegen (Klauer 1983) Notengebung bei Kriteriumsorientierung (Klauer 1987)  ausreichende Leistung für bestanden = 4 > verbleibende Strecke nach oben in 4 gleiche Teile > 6 wenn nicht mal so viele Aufgaben richtig sind, wie bei einer 1 falsch sein dürfen Berechnung der Gütekriterien  Objektivität durch Ü-Koeffizient (Fricke 1974): Übereinstimmung verschiedener Beurteiler über mehrere Personen in deren Kriteriumserreichung ~ statistische Absicherung, die nicht von Reliabilität beeinflusst wird  Reliabilität: mittlere und absolute Testwertdifferenz, Korrelation von Erst- und Zweitmessung  inhaltliche Validität: Analyse des Lehrplans und Expertenurteile  Überprüfung der Testitems: nicht-wissende Personen sollten eine geringere Lösungswahrscheinlichkeit aufweise (Trennschärfe)

4.2 informelle Schulleistungstests selbstentwickelte Verfahren von Pädagogen in der Schulpraxis, die nicht an repräsentativen Stichproben aber an den Ergebnissen einer Klasse geeicht sind. (Lukesch 1998) 



 



von Lehrern entwickelt, Gütekriterien weniger streng berücksichtigt, keine Normierung an einer Stichprobe sondern an Klasse, Ziel ist Prüfung spezifischer Lernziele, standardisierte Prüfungssituation Testkonstruktion informeller Schulleistungstests 1. Analyse des Lehrpläne 2. Entwurf von Testitems 3. Aufgaben- und Testanalyse können norm- oder kriteriumsbezogen sein schulpädagogischer Gewinn durch Unterrichtsnähe aber geringe psychometrische Qualität  diagnostische Funktion in einem einmaligen Kontext > Grundlage für didaktische Intervention nicht für Verallgemeinerung Testentwicklung (Lukesch 1998) 1. Aufgabenkonstruktion  Objektivität, Lösung vs. Nichtlösung muss klar definiert werden, gleiche Aufgabentypen wie formelle Tests, Aufgaben entsprechen Lehrzielmatrix 2. Aufgabenanalyse  Schwierigkeitsindex, Trennschärfe, Distraktorenanalyse (gut vs. schlechter Schüler) 3. Reliabilitätseinschätzung 4. Rohwerte einholen und deren Interpretation (norm- oder kriteriumsorientiert)

4.2.1 Gütekriterien  

 

besser als bei traditioneller Leistungsbeurteilung mit Noten aber schlechte als bei formellen Objektivität  Durchführungsobjektivität: besser als bei schriflichen Prüfungen durch standardisierte Instruktion sowie Beispiele und Übungsaufgaben  Auswertungsobjektivität: bei gebundenen Antwortformaten optimal (Schablone) und bei freien Antwortformaten sind Kriterienkataloge notwendig  Interpretationsobjektivität: besser als bei schriflichen Prüfungen v.a. bei geschlossenen Antwortformaten aber ungünstiger als bei formellen Tests (keine Normierung und keine Erfassung des Objektivitätskoeffizienten) Reliabilität  in der Regel keine Erhebung außer selten Paralleltestreliabilität Validität  Inhaltsvalidität: Sicherung der curricularen Validität durch Lehrplananalyse und Berücksichtigung der Lerngelegenheit (besser als bei formellen weil durch Lehrer vorgenommen), Expertenrating bei Lehrplananalyse  empirische Validität: in der Regel keine Erhebung  Konstruktvalidität: Überprüfung der Übereinstimmung mit Schulnoten, ungünstiger als bei formellen Tests weil keine Standardisierung/Validitätskoeffizienten, besser als bei traditioneller Leistungserhebung weil sachfremde Beurteilungskriterien gemindert werden

4.2.2 Vorteile     

gute Erfüllung der Gütekriterien, besser als bei herkömmlichen Schulnoten curriculare Validität und Lerngelegenheit werden berücksichtigt ökonomischer als formelle Schulleistungstests wegen geringerem Konstruktionsaufwand schnelle Korrektur v.a. bei gebundenen Antwortformaten und schnelle Auswertung beziehen sich auf konkret durchgeführten Unterricht

4.2.3 Nachteile      

Ratewahrscheinlichkeit bei gebundener Aufgabenform Gütekriterien weniger gut erfüllt als bei formellen Tests aufwändiger als traditionelle Leistungsbewertungsformen Qualität des Tests ist abhängig von Lehrkraf manche produktiven Leistungen können mit Tests nicht erfasst werden z.B. Kreativität Aufgabenanalyse erst im Nachhinein

4.3 Beispiele 4.3.1 formelle Schulleistungstests











Mehrfächertest AST 2 (allgemeiner Schulleistungstest für die 2. Klasse) von Rieder 1971  6 Subtests zur Erfassung wesentlicher Lernbereiche der 2. Klasse: Leseverständnis, Rechtschreiben, Grundrechenarten, Textrechnen, neue Mathematik, Sachunterricht  2x45 Minuten, Gruppentest, Paper&Pencil, Paralleltests vorhanden  hohe konvergente Validität zu Schulnoten und anderen validitätsgleichen Tests  hohe Korrelation (.59) zu BT (Intelligenztest) HAT 9 (Hauptschulabschlusstest 9.Klasse) nach Ingenkamp 1983  im 2. Halbjahr der 9. Klasse werden wichtigste Lehrziele in Deutsch, Englisch, Mathe, Physik, Chemie, Wirtschaf und Sozialkunde erfasst  hohe curriculare Validität durch Analyse aller Lehrpläne aller Bundesländer  hinreichend valide weil Noten aus allen Bundesländern stammen  von Abschlussschnitt unabhängige Vergleichsbasis für Hauptschulabgänger  weitere Verwendungsmöglichkeiten: Bildungs- oder Berufsberatung  2x90 Minuten, Gruppentest, Paper&Pencil, Paralleltests vorhanden FTU 4-6 (Fremdspracheneignungstest 4.-6. Klasse) nach Carroll & Sapon 1971  Verwendung von Tonbändern um phonetische Entschlüsselung, grammatische Sensibilität, Merkfähigkeit für unbekannte Wörter, induktive Begabung für das Fremdsprachenlernen zu messen  Korrelation von Testergebnis x Englischnote = .48  prognostische Validität .64  75 Minuten, Gruppentest, Paper&Pencil, kein Paralleltest vorhanden EET 6+ (Englisch Einstufungstest 6.Klasse) von Schrand 1973  für Gesamtschulen  Mehrfachantworten  Bereiche: Spelling, Vocabulary, Structure, Pronunciation, Listening Comprehension  Korrelation Testergebnis x Englischnote .40 (mittel)  Korrelation Testergebnis x CFT 2 (Inteligenztest) .37-.40 (mittel)  45 Minuten, Gruppentest, Paper&Pencil, Paralleltest vorhanden WLST (Würzburger Lesestrategie-Wissenstest für die Klassen 7-12)  als Gruppen- und Einzeltest zur Erstellung von Förderdiagnosen  Schülern werden 6 Lernszenarien geboten > zu jeder Situation sollen sie die Qualität und Nützlichkeit von fünf verschiedenen Vorgehensweisen (Antwortvorschläge) zur Erreichung eines Lernziels bewerten > hohe Testwerte = Schüler verfügt über effektive Strategien zum Behalten und Verstehen gelesener Texte  Prozentrangnormen für Rohpunktzahl (Normierungsstichprobe: 4.500 Schüler aus allen Bundesländern)  Dauer 20-35 Minuten

4.3.2 informelle Schulleistungstests 

TU – RT1 (Toward Unterstanding – Reading Texts 1) von Boss 1982  nach 2 Jahren Englisch  12 Einzelteile und Abbildungen mit denen rezeptive und productive Sprachbeherrschung geprüf wird (verschiedene Schwierigkeitsstufen)  2x45 Minuten, Gruppentest, Paper&Pencil, kein Paralleltest vorhanden

4.4 Zehn Prüfsteine zur Beurteilung von Schulleistungstests 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

Überprüf der Test das, was unterrichtet wurde? Ist der Test reliabel genug? Wie präzise ist ein individueller Testpunktwert? Wie wird eine objektive Testdurchführung gesichert? Wie wird die Auswertungsobjektivität gewährleistet? Wie ist der Test normiert? Gibt es Paralleltests? Wie sind die Testergebnisse inhaltlich zu interpretieren? Wie lange dauert der Test? Wie alt ist der Test?

4.5 Exkurs Intelligenztests 







Nutzen von Intelligenztests  Identifikation einer Teilleistungsstörung, Minderbegabung, Hochbegabung oder bei der Berufsschulberatung Kritik  theoretisches Konstrukt ist schwer zu bestimmen weil nicht sichtbar  Test kann nicht beweisen ob globale Allgemeinintelligenz oder voneinander unabhängige Intelligenzen existieren empirische Befunde  Ceci 1991: Schulleistung korreliert deutlich mit IQ; verzögerter Schuleintritt und häufiges Fehlen beeinflusst den IQ negativ  Friedrich 1978: Intelligenz korreliert stark mit Noten am Gymnasium; elterliche Unterstützung hat auch hohen Einfluss  Kühn 1983: Noten der Hauptfächer in der GS korrelieren stark mit Intelligenz; häusliche Umwelt spielt starke Rolle; Persönlichkeitsmerkmale korrelieren wenig mit Noten; Intelligenztest misst nur kognitive (50%) Komponente nicht sozial (25%) oder affektiv (25%) aber diese haben auch einen höheren Einfluss auch Schulleistung (Bloom1976)

4.5.1 Geschichte der Intelligenzmessung 





Psychiatrie  Esquirol 1938: verwendet Sprachbeherrschung um Ausprägung von Schwachsinn abzuschätzen (vgl. Sprach des Probanden mit Kindersprache)  Kraepelin 1895: psychiatrische Leistung wird mit Durchschnittsnorm (aus Massenbeobachtung) bestimmt ~ Abweichungen sind abnormal Genetik  Galton (Ende 19. Jhd.): Fragebögen um Daten zu ermitteln, die das Individuum bestimmen > Individualität, Intelligenz, genetische Einflüsse experimentelle Psychologie





 Catell: Begründer der Testpsychologie; objektive Einzeltests schulische Anwendungsaspekte  Ebbinghaus (Ende 19. Jhd.): Prüfungen für Rechenfähigkeit, Gedächtnis und Kombinatorik > bei steigendem Alter auch Steigerung der Leistung ~ 1. Intelligenztest  Binet (Ende 19. Jhd.): Intelligenzmessung an den Punkten wo sich Intelligenz zeigt (Urteilen, Verstehen, Denken) > Intelligenz ist nicht absolut messbar sondern muss ins Verhältnis zum Lebensalter gesetzt werden (Intelligenzalter – Lebensalter) differentielle Psychologie  Stern 1900: Intelligenz ist die allgemeine Fähigkeit eines Individuums, sein Denken bewusst auf neue Forderungen einzustellen (geistige Anpassungsfähigkeit) > Intelligenzquotient = (Intelligenzalter/Lebensalter) x 100  Wechsler 1956: IQ ist Abweichungsquotient von Durchschnitt 100 mit Streuung 15

4.5.2 Kennzeichen heutiger Intelligenztests      

Einzelne Aufgaben (Items) in verschiedenen Untertests > verbale oder nonverbale Probleme gestellt die die Testperson bearbeiten muss (Schwierigkeit ansteigend) Rohwert aus IQ-Test wird in aussagekräfigen Standardwert umgewandelt Tendenz zur Normalverteilung Im Unterschied zum Leistungstest (misst tatsächlich erbrachte Leistung in Einzelfächern) werden die Inhalte von Intelligenztests nicht in der Schule unterrichtet Intelligenztests messen eher fluide Fähigkeiten, während Leistungstest eher kristallines Wissen testen Intelligenz stabilisiert sich etwa im Alter von 12 Jahren

4.5.3 Beispiel HAWIK-R (Hamburg-Wechsler-Intelligenztest für Kinder) 



 

allgemein anerkannt, berechnet eher unterdurchsc...


Similar Free PDFs