Cronbach Alpha PDF

Title	Cronbach Alpha
Course	Recht
Institution	Hochschule Hamm-Lippstadt
Pages	8
File Size	222.7 KB
File Type	PDF
Total Downloads	5
Total Views	146

Preview

CLICK TO PREVIEW PDF

Summary

Cronbachs Alpha...

Description

Überprüfung der Konsistenz von Itemgruppen mit Cronbachs Horst Schecker Um die Ausprägung bestimmter Personenmerkmale (z. B. fachliches Verständnis oder Einstellungen zu einem Sachverhalt) zuverlässig einschätzen zu können, verwendet man sinnvollerweise mehr als ein Item (Frage oder Aufgabe), das Aufschluss über das Merkmal geben soll. Die verwendeten Items sollen eine Skala bilden, d. h. eine inhaltlich auf das gleiche Merkmal gerichtete zusammenhängende Itemgruppe. Um zu überprüfen, ob dieser angestrebte Zusammenhang gegeben ist, schaut man sich an, inwieweit die Bearbeitung der Skala durch die Probanden konsistent ist, inwieweit also ähnliche Aufgaben oder Fragen in ähnlicher Weise bearbeitet werden – hinsichtlich der Qualität der fachlichen Bearbeitung oder der geäußerten Einschätzungen. Daraus schließt man auf die innere Konsistenz der Skala. Als quantitatives Maß dieser Konsistenz wird in empirischen Studien sehr häufig Cronbachs verwendet. Dieser Beitrag erläutert die Berechnungsweise und gibt Hinweise zur Interpretation der Ergebnisse.

1

Einsatzbereich

Nehmen wir an, Sie haben für einen Test zur Messung des inhaltlichen Verständnisses des Wechselwirkungsprinzips beim Kraftbegriff (3. Newtonsches Axiom) eine Reihe von Items entwickelt. Sie haben sich dabei bemüht, die schwierigkeitserzeugenden Merkmale über die Aufgaben hinweg so zu kontrollieren, dass die Itemschwierigkeit im Wesentlichen durch unterschiedliche Anforderungen an das inhaltliche Verständnis variiert wird und nicht z. B. durch unterschiedliche Antwortformate (zur Testkonstruktion vgl. Kauertz, 2013). Wenn man davon ausgeht, dass ein „Verständnis des 3. Axioms“ als latentes Konstrukt bei den Probanden vorhanden ist, dass sie also nicht rein zufällig oder nach dem Rateprinzip antworten, sollten die Testergebnisse über die Items hinweg konsistent sein. Anders gesagt: die Qualität der Itembearbeitungen sollte korrelieren. Um ein Maß für den Zusammenhang der Skala zu erhalten, kann man die mittlere Korrelation der Items untereinander (Interkorrelation) heranziehen. Alternativ kann man die Summe der Varianzen bei den Testwerten der Einzelitems zur Varianz des Skalengesamtwertes betrachten. In vielen Studien wird der darauf aufbauende Koeffizient „Cronbachs alpha“ ( ) verwendet. Er wird auch als Reliabilitätskoeffezient bezeichnet, weil er Aussagen über die Zuverlässigkeit einer Messung unterstützt.

2

2.

Berechnung

Zur Berechnung von

gibt es zwei Möglichkeiten:

Berechnung über die mittlere Interkorrelation zwischen den Items: ·

∝ ·  



1

N: Anzahl der Items rm: mittlere Interkorrelation der N Items ( st steht für „standardisiertes “; dabei wird vereinfachend angenommen, dass die Varianzen der Items gleich sind) Berechnung über die Varianzen der Items: 

∝  · 1 −

∑  

2

 : Varianz des Itemwerts i (es wird über alle Items 1 bis N aufsummiert)  : Varianz des Skalenwertes (z. B. des Summenwerts über alle Items i) (Die Varianz ist die mittlere Abweichung eines Einzelwerts vom Mittelwert einer Verteilung) Die Berechnungsformeln zeigen, dass in beiden Fällen die Itemanzahl N in die Berechnung eingeht. Dabei führt eine kleinere Itemanzahl N – bei gleicher mittlerer Interkorrelation rm der Items – zu einer geringeren Reliabilität . Dies wirkt sich besonders bei Itemzahlen unter zehn aus. (Man kann sich das durch Beispielrechnungen anhand von (1) veranschaulichen.) Cronbachs kann sowohl für dichotome Daten (z. B. richtig/ falsch) als auch für mehrstufige diskrete oder kontinuierliche Daten verwendet werden. Statistikprogramme wie SPSS oder PSPP stellen die Berechnung von Cronbachs zur Verfügung. Wie man in den grafischen Benutzungsoberflächen der Programme dabei genau vorgeht, wird im Internet beschrieben (z. B. https://statistics.laerd.com/spss-tutorials/cronbachs-a-using-spss-statistics.php [8.8.2013]).

3

3. Beispiel Im folgenden Beispiel werden Daten aus dem Einsatz des Force Concept Inventory Tests (FCI) bei 222 Studierenden verwendet, die Neumann (2013) als online-Zusatzmaterial zu Kapitel 28 des Handbuchs zur Verfügung gestellt hat. Der FCI (Hestenes, Wells und Swackhamer, 1992) enthält u. a. vier Items, die sich auf das dritte Newtonsche Axiom beziehen (Gerdes und Schecker, 1999). Insgesamt umfasst der Test 29 Multiple-Choice Items zum qualitativen Verständnis der klassischen Mechanik. Es gibt neben der richtigen Antwort jeweils vier Distraktoren. Die folgende Beispielberechnung wurde mit PSPP1 durchgeführt. Zunächst wurden aus den Rohdaten, bei denen kodiert ist, welche Auswahlantwort der Proband beim jeweiligen Item gewählt hat (Antwort 1 bis 5) Werte für neue Variable berechnet, die berücksichtigen, ob die Antwort richtig ist. Hier ein Beispiel für das Umkodieren der Variablen A11 (Item 11; Werte 1 bis 5; richtige Lösung: 5) in eine neue Variable N3_11 (Item 11, Werte 1 bzw. 0): RECODEA11  5140302010  INTON3_11. EXECUTE.

Für die so neu erzeugten vier Variablen bzw. Itemkennwerte (0 oder 1) wird dann Cronbachs berechnet (Abb. 1). Aus den Daten der Erhebung von Neumann ergibt sich ein Wert von = 0,67. Dieser Wert liegt knapp unterhalb des häufig in der Literatur angegebenen Werts von 0,7, den man für die Annahme einer konsistenten Skala voraussetzen sollte (s.u.). Bei PSPP und SPSS kann man sich zusätzlich ausgeben lassen, wie der -Wert einer Skala sich verändert, wenn man einzelne Items aus der Berechnung ausschließt. Oftmals kann man so „Ausreißer“ ermitteln, die offenbar schlecht zur Gesamtskala passen. Es lohnt sich dann, diese Items daraufhin genauer anzuschauen, welche inhaltlichen oder formalen Gründe dafür die Ursache sein können. Im vorliegenden Fall lassen sich jedoch keine wesentlichen Verbesserungen von erzielen. Der Ausschluss von Item N3_14 würde zu einer geringfügigen Verbesserung von führen, gleichzeitig aber die ohnehin schon kurze Skala auf drei Items einschränken.

1

PSPP ist ein freies Statistikprogramm, das sich an SPSS orientiert. Die Bedienung ist sehr ähnlich. http://www.gnu.org/software/pspp/get.html (8.8.2013)

4

Abb. 1: PSPP Ausgabe der -Werte Schaut man sich die zugrundeliegende Korrelationsmatrix an, so sieht man, dass die höchste Interkorrelation 0,5 beträgt. Alle Korrelationen sind signifikant, liegen jedoch auf niedrigem Niveau. Im Vergleich zur mittleren Interkorrelation von 0,35 (das Maximum wäre +1; ebenso wie bei ), erscheint der -Wert deutlich höher.

Abb. 2: PSPP Ausgabe der Korrelationstabelle

5

4. Zur Interpretation von Cronbachs Perspektive

aus fachdidaktischer

Inhaltlich sinnvoll ist die Berechnung von Cronbachs nur, wenn die mittlere Interkorrelation im positiven Bereich liegt. Der Wertebereich ist dann 0 < ∝ ≦ 1. In der Literatur findet man unterschiedliche Angaben darüber, welche -Werte als ausreichend angesehen werden, um von einer intern konsistenten Skala ausgehen zu können. Bortz und Döring (2006, 708) nennen = 0,8 als anzustrebenden Wert. Schmitt (1996) bezeichnet 0,7 als den üblicherweise angesetzten Schwellwert. Es gibt keinen objektiven Grenzwert, ab welchem man eine Skala verwenden „darf“. Ein -Wert unter 0,7, der auch durch gezielten Ausschluss bestimmter Items nicht erhöht werden kann, ist kein absolutes Hindernis für die Verwendung des Tests oder der Skala. Schmitt (1996) schreibt: „When a measure has other desirable properties, such as meaningful content coverage of some domain and reasonable unidimensionality, this low reliability (Schmitt spricht hier anhand eines Beispiels von einem Wert = 0,49, H. S.) may not be a major impediment to its use“. Das ist aus fachdidaktischer Sicht besonders relevant, wenn mit Tests solche Konstrukte erfasst werden sollen, deren Operationalisierung anspruchsvoll ist. Um das an einer Gegenüberstellung zu veranschaulichen: Es ist einfach, 20 Aufgaben zur Fähigkeit des schriftlichen Multiplizierens zu entwickeln – man muss dafür nur Multiplikator und Multiplikand zahlenmäßig variieren. Wenn man jedoch das Verständnis des dritten Axioms breit in Aufgaben erfassen will, werden sich die Aufgaben sinnvollerweise über unterschiedliche Konstellationen wechselwirkender Körper in unterschiedlichen Anwendungskontexten erstrecken. Um eine konsistente Skala zu erhalten wäre es einfacher, nur einen Kontext mit wenig veränderten Konstellationen in vielen Items abzubilden. Das wiederum wäre jedoch aus fachdidaktischer Sicht für ein grundlegendes Verständnis des Axioms wenig aussagekräftig und führt zu Validitätsproblemen. Es muss daher stets zwischen der Bandbreite eines Tests und seiner Spezifität abgewogen werden. Es wäre fatal, wenn zugunsten hoher -Werte zu große Abstriche bei der inhaltlichen Ausrichtung der Items in Kauf genommen werden. Fachdidaktisch inhaltlich anspruchsvolle Leistungstests, bei denen die Itemzahl wegen der begrenzten Testzeit nicht beliebig erhöht werden kann, haben Schwierigkeiten, hohe -Koeffizienten zu erreichen. Viele psychologische Fragebögen oder Tests mit einer großen Anzahl von Items haben es da leichter. Umgekehrt, kann man aus einem ausreichend hohen Wert auch nicht den Schluss ziehen, dass es sich um eine homogene Skala handelt, also um eine Skala, die wirklich nur ein Merkmal testet. Schmitt (1996) zeigt an konkreten Beispielen sehr anschaulich, wie unterschiedlich Korrelationsmatrizen sein können, die zum gleichen -Wert führen. Hier kann eine Faktorenanalyse Hinweise auf mögliche Mehrdimensionalität der Skala liefern.

6

Ein Blick auf die Korrelationsmatrix, die der Berechnung eines -Wertes zugrunde liegt, zeigt, dass die einzelnen Interkorrelationen der Items einer Skala zahlenmäßig meist deutlich niedriger liegen als der Zahlenwert von . Man sollte sich stets vor Augen führen, dass selbst ein -Wert von 0,8 oder höher nicht bedeutet, dass zwischen den Einzelitems ein starker oder sehr starker korrelativer Zusammenhang bestünde. Aus fachdidaktischer Sicht ist es oftmals verwunderlich, wenn man beim Vergleich von Items, die fachlich-inhaltlich aus der Expertenperspektive sehr ähnlich sind, findet, dass Einzelkorrelationen unverständlich niedrig ausfallen, obwohl die Items einer insgesamt hoch reliablen Skala angehören. Man kann solche Befunde aber auch als weiteres Indiz dafür werten, dass man mit isolierten Items nicht wirklich auf die Ausprägung fachlichen Verständnisses schließen kann, sondern dass dafür eine Itemgruppe heranzuziehen ist. Eine letzte Anmerkung zur den Schlussfolgerungen aus -Berechnungen: Die Ziele schulischer Leistungsmessungen sind nicht die gleichen wie bei diagnostischen Tests in empirischen Forschungsstudien. Wenn man gut begründen kann, dass eine bestimmte Auswahl von Testaufgaben die Kerninhalte und Kompetenzziele einer Unterrichtseinheit abdecken, kann man den Test im Rahmen einer Evaluation der Unterrichtseinheit auch bei niedrigen Reliabilitätswerten verwenden. Es handelt sich dann schlichtweg um einen lernzielbezogenen Test, der jedoch nicht in der Lage ist, ein zusammenhängendes Fähigkeitskonstrukt zu erfassen, bzw. der viele Lernziele gleichzeitig erfassen soll und deshalb nicht ausreichend viele Aufgaben pro Lernziel in der gegebenen Testzeit einsetzen kann. Man kann sich dann entscheiden, nur spezifisch ausgewählte Lernziele zu testen, diese aber dann reliabel. Ein niedriges Cronbachs kann auch darauf hindeuten, dass man bei den Aufgaben auch sinnvolle Lösungen finden kann (vor allem bei sehr tiefem fachlichem Verständnis der Inhalte!), die bei der Aufgabenentwicklung nicht berücksichtigt worden sind. Ein Blick auf die Reliabilität lohnt sich also in jedem Fall auch bei lernzielbezogenen Tests.

5. Fazit Cronbachs ist ein in sehr vielen Studien verwendeter und hilfreicher Koeffizient, der dazu beiträgt die innere Konsistenz eines Tests oder Fragebogens einzuschätzen. Der Zusammenhang zwischen der Itemanzahl, der zugrundeliegenden Interkorrelationsmatrix und dem -Koeffizienten selbst ist jedoch komplex. Weder sollte man sich von niedrigen -Werten zu schnell abschrecken lassen, noch sind hohe -Werte für sich ein Beleg für einen auch fachdidaktisch gut konstruierten Test, für eine homogene Skala oder für hohe Korrelationen auf Itemebene.

7

Literatur Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Humanund Sozialwissenschaftler. Heidelberg: Springer. Gerdes, J. & Schecker, H. (1999). Der Force Concept Inventory. Der mathematische und naturwissenschaftliche Unterricht 52, S. 283–288. Hestenes, D., Wells, M. & Swackhamer, G. (1992). Force concept inventory. The Physics Teacher 30, S. 141–158. Kauertz, A. (2013). Entwicklung eines Rasch-skalierten Physik-Leistungstests. In: D. Krüger, I. Parchmann & H. Schecker (Hrsg.): Methoden in der naturwissenschaftsdidaktischen Forschung, Kap. 27. Berlin: Springer. Neumann, K. (2013). Rasch-Analyse naturwissenschaftsbezogener Leistungstests. In: D. Krüger, I. Parchmann & H. Schecker (Hrsg.): Methoden in der naturwissenschaftsdidaktischen Forschung, Kap. 28. Berlin: Springer. Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment 8(4), S. 350–353....