Cohens Kappa

statistisches Maß
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 27. April 2007 um 19:46 Uhr durch Rogmann (Diskussion | Beiträge) (Mehrfachstufung der Meßobjekte, zwei Rater). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Cohens Kappa ist ein statistisches Maß für die Interrater-Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug.

Die Gleichung für Cohens Kappa lautet

wobei der gemessene Übereinstimmungswert der beiden Schätzer und die zufällig erwartete Übereinstimmung ist. Wenn die Rater in allen ihren Urteilen übereinstimmen, ist . Sofern sich nur Übereinstimmungen zwischen den beiden Ratern feststellen lassen, die mathematisch dem Ausmaß des Zufalls entsprechen, nimmt es einen Wert von an. (Negative Werte weisen dagegen auf eine Übereinstimmung hin, die noch kleiner ist als eine zufällige Übereinstimmung.)

Greve und Wentura (1997, S. 111) berichten von verschiedenen Einschätzungen hinsichtlich des -Wertes. Als Resümee lässt sich festhalten, dass -Werte von 0.40 bis 0.60 vielleicht noch annehmbar sind, aber Werte unter 0.70 mit etwas Skepsis betrachtet werden sollten. Interrater-Reliabilitätswerte von >=.75 scheinen gut bis ausgezeichnet. Landis und Koch (1977) schlagen dagegen folgende Werte vor: <0 = "schlechte Übereinstimmung (poor agreement)", zwischen 0-0.20 = "etwas (slight) Übereinstimmung", 0.21-0.40 = "ausreichende (fair) Übereinstimmung", 0.41-0.60 = "mittelmäßige (moderate) Übereinstimmung", 0.61-0.80 = "beachtliche (substantial) Übereinstimmung", 0.81-1.00 = "(fast) vollkommene ((almost) perfect) Übereinstimmung".

Problematisch am Koeffizienten ist insbesondere, dass sein maximaler Wert nicht immer und automatisch 1.00 ist (s.u.).

Nominalskalen, zwei Rater

Wenn lediglich Übereinstimmungen und Nicht-Übereinstimmungen zwischen den beiden Ratern abgeprüft werden, fallen alle auftretenden Beurteilungsunterschiede gleich ins Gewicht. Dies ist insbesondere bei Nominalskalen sinnvoll. Dabei kann das Datenmaterial (also die Urteilshäufigkeiten  ) bei einem Item oder Merkmal mit   (nominalen) Kategorien   von beiden Einschätzern in einer   Kontingenztafel (also mit   Zeilen und   Spalten) abgetragen werden:

  Rater B Randhäufigkeiten  
Rater A   ...    
    ...    
. . ... . .
. . ... . .
. . ... . .
    ...    
Randhäufigkeiten     ...    

Dann gilt für den Anteil der übereinstimmenden Einschätzungen der Rater (=Mitteldiagonale der Kontingenztafel)  :

 ,

wobei   gleich der Anzahl der insgesamt eingeschätzten Beurteilungsobjekte (Personen/Items/Gegenstände) entspricht.


Für die erwarteten Übereinstimmungen werden die Produkte der Randsummen (=Zeilensumme x Spaltensumme) einer Kategorie   aufsummiert und schließlich ins Verhältnis zum Quadrat der Gesamtsumme gesetzt:

 .

Scott (1955) schlug für seinen <Koeffizienten  , der nach derselben Ausgangsformel wie   berechnet wird, vor, die erwarteten Übereinstimmungen wie folgt zu bestimmen:

 .

Sofern die Randverteilungen unterschiedlich sind, ist Scotts   immer größer als Cohens  .

Sobald in der Kontingenztafel auch nur eine Zelle jenseits der Diagonalen gefüllt ist (also Beurteilungsunterschiede auftreten), hängt der maximale Wert von Cohens Kappa von den Randverteilungen ab. Er wird umso geringer, je weiter sich die Randverteilungen von einer Gleichverteilung entfernen. Brennan und Prediger (1981) schlagen hier einen korrigierten Kappa-Wert   vor, der   definiert als  , wobei   wie oben die Anzahl der Kategorien (also der Merkmalsausprägungen) ist. Somit lautet  :

 


Fleiss' Kappa

The Ausweitung der Formeln auf mehr als zwei Rater ist im Prinzip unproblematisch. Die Ausweitung der  -Statistik wird auch als Fleiss' Kappa bezeichnet. Für den Anteil der aufgetretenen Übereinstimmungen gilt dann z.B. für drei Rater   und  .

Für den Koeffizienten von Brennan und Prediger (1981) schlägt von Eye (2006, S. 15) folgende Ausweitung auf   Rater vor:   wobei   ein Index für die Übereinstimmungszellen (Diagonalen) ist.

Wenn   wie oben die Anzahl der Kategorien ( ) ist und   die Anzahl der Rater (=Anzahl der Einschätzungen pro Merkmal/Item/Person) und wobei   die Anzahl der insgesamt eingeschätzten Beurteilungsobjekte (Fälle/Personen/Items/Gegenstände)   ist, gilt folgendes:

  •   ist die Anzahl der Rater, die Beurteilungsobjekt   in Kategorie   passend beurteilt hat.
  •   ist die Summe aller Fälle in Beurteilungskategorie  .
  •   ist der Anteil aller Fälle in Beurteilungskategorie   an allen ( ) Beurteilungen insgesamt.

Das Ausmaß der Beurteilerübereinstimmung beim  . Fall (=bei der  . Person/Item/Gegenstand) berechnet sich dann als

 

In die  -Formel fließt der Mittelwert über alle   ein sowie der Erwartungswert für den Zufall   ein:

 

 .

Mehrfachstufung der Meßobjekte, zwei Rater

Sind die Rater aber aufgefordert, die Schätzobjekte mehrfach zu stufen (d.h. statt der k nominalen Kategorien geht es nun um Abstufungen und kann für diese Abstufungen mindestens ein Ordinal-Skalenniveau angenommen werden), sollten aber diskonkordant größere Abweichungen der Rater voneinander stärker ins Gewicht fallen als kleinere Abweichungen. In diesem Fall sollten ein gewichtetes Kappa berechnet werden, bei dem für jede Zelle ij der Kontingenztafel ein Gewichtungsfaktor   definiert wird, das sich z.B. daran orientieren könnte, wie groß die Abweichung von der Mitteldiagonalen ist (z.B. als quadrierte Abweichungen Mitteldiagonalzellen=0, Abweichungen um 1 Kategorie=1, Abweichungen um 2 Kategorien= =4 usw.). Dann gilt für dieses (gewichtete) Kappa (vgl. Bortz 1999):

 

Alternativen zu diesem Koeffizienten sind der Rangkorrelationskoeffizient nach Spearman und Kendall's Tau sowie Kendalls Konkordanzkoeffizient W.

Literatur und Quellen

  • Bortz, J. (1999). Statistik für Sozialwissenschaftler (5. Aufl.), Berlin: Springer.
  • Bortz, J., Lienert, G. A. & Boehnke, K. (1990). Verteilungsfreie Methoden in der Biostatistik, Kap. 9. Berlin: Springer.
  • Brennan, R. L. & Prediger, D.J. (1981). Coefficient  : Some uses, misuses, and alternatives. Educational and Psychological Measurement, 41, 687–699.
  • Cohen, J. (1960). A coefficient of agreement for nominal scales, Educational and Psychological Measurement, 20, 37-46.
  • Cohen, J. (1968) Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70, 213-220.
  • Fleiss, J. L. (1981) The measurement of interrater agreement. In: ders., Statistical methods for rates and proportions, 2ed (S. 212-236, Kapitel 13). New York: John Wiley & Sons.
  • Greve, W. & Wentura, D. (1997). Wissenschaftliche Beobachtung: Eine Einführung. Weinheim: PVU/Beltz.
  • Landis,J. R. & Koch, G. G.(1977). The measurement of observer agreement for categorical data. Biometrics, 33, 159–174.
  • Scott, W. A. (1955). Reliability of content analysis: The case nominal scale coding. Public Opinion Quarterly, 19, 321-325.
  • von Eye, A. (2006). An Alternative to Cohen's  . European Psychologist, 11, 12-24.