Cohens Kappa PDF

Title	Cohens Kappa
Course	Diagnostik I mit Übungen
Institution	Universität Bern
Pages	6
File Size	176.3 KB
File Type	PDF
Total Downloads	8
Total Views	187

Preview

CLICK TO PREVIEW PDF

Summary

Cohens Kappa berechnen...

Description

Marcus Hammann Janina Jördens Horst Schecker

Übereinstimmung zwischen Beurteilern: Cohens Kappa (ĸ) Bei der Auswertung qualitativer Daten, wie etwa Aussagen von Lehrkräften in Interviews, Videomitschnitten von Schülerhandlungen oder schriftlich ausformulierten Antworten zu Aufgaben mit offenem Antwortformat, greift man häufig zu Kategorisierungen: Anhand eines Kodierleitfadens sollen Beurteiler (auch als Kodierer oder Rater bezeichnet) unabhängig voneinander Aussagen, Handlungen etc. Kategorien zuordnen (z. B. „fachlich korrekt“ / “fachlich fehlerhaft“ / „fachlich falsch“). Die Zuverlässigkeit solcher Bewertungen, aber auch von Beobachtungen und Messungen, wird in der Regel anhand der Übereinstimmung der Kodierungen mehrerer unabhängiger Beurteiler bestimmt. In diesem Zusammenhang spricht man von Beurteiler-Übereinstimmung, Interrater-Agreement oder Interrater-Reliabilität. Der einfachste Anhaltspunkt für die Schätzung der Beurteiler-Übereinstimmung ist der prozentuale Anteil der Übereinstimmungen an der Gesamtzahl der Kodierungen ( 0). Dabei berücksichtigt man jedoch nicht, dass die Beurteiler mit einer gewissen Wahrscheinlichkeit auch zufällig zur gleichen Einschätzung gelangen können ( e). Das am häufigsten verwendete Maß zur Bewertung der Übereinstimmungsgüte bei Vorliegen kategorialer Merkmale ist der Cohens-Kappa-Koeffizient κ. Er berücksichtigt e. Die Berechnungen, die der Bestimmung des Cohens-Kappa-Koeffizienten zugrunde liegen, sollen im Folgenden schrittweise nachvollzogen werden: Berechnungsformel:  = 0= e

– –

Anteil tatsächlich beobachteter Übereinstimmungen

= Anteil zufälliger Übereinstimmungen

Wir gehen für den einfachsten Fall davon aus, dass zwei Beurteiler Einschätzungen nach zwei Kategorien A und B vornehmen (a, b, c und d sind Anzahlen von Kombinationen von Kodierungen durch die beiden Beurteiler). Der Anteil tatsächlich beobachteter Übereinstimmungen (p0) lässt sich anhand der Tabelle leicht bestimmen: Kodierer 2 Kodierer 1 Randsumme

A B

A a c a+c

Randsumme B b d b+d

a+b c+d n = a+b+c+d



0=

ƩÜ() ()

Dieses Ergebnis muss um den Anteil zufälliger Übereinstimmungen ( e ) korrigiert werden. Man kann sich das folgendermaßen verdeutlichen: Wenn Kodierer 1 in 50% seiner Kodierungen die Kategorie A angekreuzt hat (K1_A) und Kodierer 2 ebenfalls in 50% seiner Kodierungen Kategorie A (K2_A), beträgt die Wahrscheinlichkeit für zufällige Übereinstimmungen beim Ankreuzen der Kategorie K1_A · K2_A, in unserem Beispiel 25%. Entsprechendes gilt für die zufälligen Übereinstimmungen hinsichtlich Kategorie B, so dass sich insgesamt für die zufälligen Übereinstimmungen ergibt: 

e

= (K1_A · K2_A) + (K1_B · K2_B) Kodierer 2 A a c (a+c)/n

A B

Kodierer 1 Anteil

B b d (b+d)/n

Anteil (a+b)/n (c+d)/n n = a+b+c+d

Die einzelnen Werte berechnet man aus den Randsummen (Spalten- bzw. Zeilensummen) der Kodierer jeweils dividiert durch die Gesamtzahl der Kodierungen. 

e

()

=



·

() 

()

 + 



·

( 



Auch im Falle von kann die Berechnung von κ nach entsprechenden Erweiterungen der Berechnungsformel durchgeführt werden. Für greift man auf z. B. auf Fleiss Kappa zurück (z. B. Wirtz & Caspar, 2002, 75 ff.).

Beispiele Anhand der Kodierung offener Schülerantworten zu einer Fachwissensaufgabe soll im Folgenden beispielhaft die Überprüfung der Interrater-Reliabilität durch Ermittlung des Cohens-Kappa-Koeffizienten dargestellt werden. Die Berechnung erfolgt anhand einer einfachen Übereinstimmungsmatrix (vgl. Rost 2004; Bortz & Döring 2006). In diesem Beispiel haben zwei unabhängige Kodierer insgesamt 157 offene Schülerantworten daraufhin analysiert, ob es sich um eine Antwort handelt, in der Schülervorstellungen von den fachlichen Vorstellungen abweichen (A) oder um eine Antwort, in der die Schülervorstellungen nicht von den fachlichen Vorstellungen abweichen (B). 31 von 157 zu kodierenden Antworten wurden übereinstimmend von beiden Kodierern der Kategorie A zugeordnet, 122 übereinstimmend der Kategorie B. Der Anteil der tatsächlich beobachteten Übereinstimmungen ( ) lässt sich anhand der Tabelle leicht ablesen: Kodierer 2

Gesamt

A 31 3 34

A B

Kodierer 1 Gesamt

B 1 122 123

32 125 157

Von insgesamt 157 Urteilen wurden 153 Übereinstimmungen festgestellt. 

0=

ƩÜ 

=

!"" #$

= 0,97

Damit haben die Kodierer in ca. 97% aller Fälle ein übereinstimmendes Urteil abgegeben. Dieses Ergebnis muss nun noch um den Anteil der zufälligen Übereinstimmungen korrigiert werden, da zu bedenken ist, dass die Übereinstimmungen zu einem gewissen Anteil auch auf zufällige Urteile zurückzuführen sein können. Dafür werden, wie oben beschrieben, die Anteilswerte der Zeilen- und Spaltensummen miteinander multipliziert und anschließend addiert. Kodierer 2 A B

Kodierer 1 Randsumme



e

=

!"

#$

%

!&

"#

 + 

#$

#$

%

"!

#$

A 31 3 34

Randsumme

B 1 122 123

32 125 157

 = 0,0441 + 0,6238 = 0,67

Die errechneten Einzelwerte werden nun in die Formel zur Berechnung des Cohens-KappaKoeffizienten eingesetzt: ' =

– –

=

,)$&#*,++$) –,++$)

= 0,92

Es ergibt sich eine Übereinstimmung von ca. 92%. Dieser Wert wird auch mithilfe des Statistikprogramms SPSS errechnet: Symmetrische Maße Wert Asymptotischer Näherungsweises Tb Standardfehlera ,923 ,038 11,577 157

Maß der Übereinstimmung Kappa Anzahl der gültigen Fälle a. Die Null-Hypothese wird nicht angenommen. b. Unter Annahme der Null-Hypothese wird der asymptotische Standardfehler verwendet.

Näherungsweise Signifikanz ,000

Der hohe Cohens-Kappa-Koeffizient im ersten Beispiel resultiert zum einen aus der sehr geringen Zahl von 4 abweichenden Kodierungen bei 153 Übereinstimmungen. Zum anderen ist die Wahrscheinlichkeit von 67% für zufällige Übereinstimmungen recht niedrig. Das folgende Beispiel veranschaulicht die Bedeutung zufälliger Übereinstimmungen bei der Berechnung des Cohens-Kappa-Koeffizienten. Die Tabelle zeigt in der Summe ebenfalls 153 Übereinstimmungen bei 4 Abweichungen. Allerdings verteilen sich die Übereinstimmungen

der beiden Kodierer sehr ungleich auf die beiden Kategorien (149-mal A/A und 4-mal B/B). Kategorie A wird von beiden Kodierern sehr häufig gewählt – was z. B. daran liegen könnte, dass die Aufgabe die Schüler überfordert hat, so dass offenbar fast nur fachlich falsche Antworten vorliegen. Dadurch steigt die Wahrscheinlichkeit zufälliger Übereinstimmungen und der Cohens-Kappa-Koeffizient sinkt trotz gleichen Anteils von BeurteilerÜbereinstimmungen auf 0,65.

Kodierer 2 A 149 3 152

A B

Kodierer 1 Randsumme 

0

= 97%

/

e

= 93%

/

Randsumme B 1 4 5

150 7 157

' = 0,65

Soll man daraus nun schließen, dass die Einschätzung der Aufgabenlösungen durch die beiden Beurteiler unzuverlässig ist oder dass vielleicht der Kodierleitfaden überarbeitet werden muss, welcher der Beurteilung zugrunde liegt? Derartige Schlüsse sind nicht zwingend richtig. Man kann sich bei einem mäßigen Cohens-Kappa-Koeffizienten (') und gleichzeitig hoher zufälliger Beurteiler-Übereinstimmung ( e) lediglich nicht so sicher sein, dass die beiden Kodierer zu ähnlich guten tatsächlich beobachteten Übereinstimmungen ( 0) gelangen, weil die Kodierung der Schülerlösungen eindeutig auf eine der beiden Kategorien zuläuft. Für eine belastbare Einschätzung der Beurteiler-Übereinstimmung sind daher Daten günstiger, bei denen die Ratings sich eher gleichmäßig auf die verschiedenen Kategorien verteilen (geringe zufällige Beurteiler-Übereinstimmung e ). Zur Frage nach „Grenzwerten“, die ein CohensKappa-Koeffizient erreichen muss, um von einer guten Beurteiler-Übereinstimmung ausgehen zu können, findet man in der Literatur, wie häufig, leicht unterschiedliche Angaben. Bortz und Döring (2006) nennen den Bereich zwischen 0,60 und 0,75. Für eine vertiefte Auseinandersetzung mit der Frage des Umgangs mit ungleichen Randverteilungen sei auf das Buch von Wirtz und Caspar (2002, 56 ff.) verwiesen. Neben Cohens Kappa gibt es weitere Koeffizienten für die Schätzung der BeurteilerÜbereinstimmung, insbesondere Scotts Pi (Wirtz & Caspar, 2002) und Krippendorffs Alpha (Hayes & Krippendorff, 2007). Eine nähere Beschäftigung mit Krippendorffs Alpha sei besonders empfohlen, wenn man Kodierungen von mehr als zwei Kodierern oder unvollständige Datensätze (missing values) auswerten muss. Abschließend noch ein Tipp: Die Website http://dfreelon.org/utils/recalfront/ stellt online-Tools für die Berechnung von Cohens Kappa, Krippendorffs Alpha und Scotts Pi für unterschiedliche Anzahlen von Ratern und Kodierungen zur Verfügung. Alles was man braucht, ist eine Tabelle mit den Kodierungen. Ein SPSS-Makro zur Berechnung von Krippendorffs Alpha stellt Hayes zur Verfügung (http://www.afhayes.com/spss-sas-and-mplus-macros-and-code.html). Literatur:

Bortz, J., Döring, N. (2006): Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler, 4. Aufl. Springer, Berlin Heidelberg New York. Grouven, U., Bender, R., Ziegler, A., Lange, S. (2007): Der Kappa-Koeffizient. Deutsche medizinische Wochenschrift 132:e65-e68. Hayes, A. F., Krippendorff, K. (2007). Answering the call for a standard reliability measure for coding data. Communication methods and measures 1(1), S. 77–89. Rost, J (2004): Testtheorie Testkonstruktion. Verlag Hans Huber, Bern Göttingen Toronto Seattle. Wirtz, M., Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe.

http://www.springer.com/978-3-642-37826-3...