Zum Inhalt springen

„Beurteilung eines binären Klassifikators“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
[ungesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
willkührlich -> willkürlich
Komma statt Klammern
 
(366 dazwischenliegende Versionen von mehr als 100 Benutzern, die nicht angezeigt werden)
Zeile 1: Zeile 1:
Bei einer [[Klassifizierung]] werden Objekte anhand von bestimmten Merkmalen durch einen [[Klassifikator]] in verschiedene Klassen eingeordnet. Der Klassifikator macht dabei im Allgemeinen [[Fehler]], ordnet also in manchen Fällen ein Objekt einer falschen Klasse zu. Aus der [[Relative Häufigkeit|relativen Häufigkeit]] dieser Fehler lassen sich quantitative Maße zur '''Beurteilung eines Klassifikators''' ableiten.
;Einführung
Im Rahmen einer [[Klassifizierung]] von Objekten lassen ein oder mehrere spezielle Merkmale, als [[Klassifikator]]en bezeichnet, eine Auftrennung in Klassen zu. Wird mit einem Test auf ein Merkmal die Klassenzugehörigkeit ermittelt, können verschiedene Arten von Zuordnungs[[Fehler|fehler]]n auftreten. Aus diesen lassen sich verschiedene statistische Kennwerte wie [[Sensitivität]], [[Spezifität (Statistik)|Spezifität]], [[Positiver prädiktiver Wert|Relevanz]] und [[Segreganz]] errechnen, die die Güte des zum Klassifikator erhobenen Tests oder auch der gewählten Klassifikation charakterisieren.


Häufig ist die Klassifikation '''binärer''' Natur, d. h., es gibt nur zwei mögliche Klassen. Die hier diskutierten Gütemaße beziehen sich ausschließlich auf diesen Fall. Solche binären Klassifikationen werden häufig in Form einer Ja/Nein-Frage formuliert: Leidet ein Patient an einer bestimmten Krankheit oder nicht? Ist ein Feuer ausgebrochen oder nicht? Nähert sich ein feindliches Flugzeug oder nicht? Bei Klassifikationen dieser Art gibt es zwei mögliche Arten von Fehlern: Ein Objekt wird der ersten Klasse zugeordnet, obwohl es der zweiten angehört, oder umgekehrt. Die hier beschriebenen [[Kennzahl]]en bieten dann eine Möglichkeit, die Zuverlässigkeit des zugehörigen Klassifikators (Diagnoseverfahren, [[Brandmelder]], Fliegerradar) zu beurteilen.
== Wahrheitsmatrix eines hypothetischen Beispiels ==
Mit einem medizinischen Labortest soll festgestellt werden, ob eine Person eine bestimmte Krankheit hat.<br>
Ein [[statistischer Test]] kann zeigen, ob der Labortest hierfür geeignet ist, wie hoch seine Güte zur Trennung ist. Die statistische [[Nullhypothese|Nullhypothese H0]] lautet ''"Test nicht geeignet zur Erkennung, Testergebnis ist zufällig"'', die Alternativhypothese H1 ''"Test positiv = Person ist krank", Test zur Erkennung geeignet"''.<br>
Der tatsächlichen Gesundheitszustand des Probanden anhand anderer "harter" Fakten (krank | gesund) und das Testergebnis (positiv | negativ) lassen 4 Kombinationen zu, die in einer Wahrheitsmatrix wie folgt dargestellt werden:


Ja-Nein-Klassifikationen weisen Ähnlichkeiten zu [[Statistischer Test|statistischen Tests]] auf, bei denen zwischen einer [[Nullhypothese]] und einer [[Alternativhypothese]] entschieden wird.
{| border=1 bordercolor=#000000 cellpadding=5 cellspacing=0

|-
Als Alternative zu den unten aufgeführten Klassifikationsmetriken, welche auf der [[Dichotomie|Dichotomisierung]] der vorhergesagten Wahrscheinlichkeiten beruhen, können [[Scoring rule]]s zur Bewertung eines Klassifikators herangezogen werden. Diese haben den Vorteil, dass die [[Wahrscheinlichkeitskalibrierung]] bewertet wird. Eine künstliche Dichotomisierung der Wahrscheinlichkeiten um Vorhersagen über Klassen zu erhalten, kann zu Verlust an Aussagekraft führen.<ref>https://www.fharrell.com/post/classification/</ref>

== Wahrheitsmatrix: Richtige und falsche Klassifikationen ==
{{Siehe auch|Kontingenztafel}}
[[Datei:Binary-classification-file.svg|mini|Ein Test soll kranke und gesunde Menschen voneinander unterscheiden. Jeder Mensch wird durch einen Punkt dargestellt, der links&nbsp;(krank) bzw. rechts&nbsp;(gesund) der schwarzen Linie liegt. Alle hier durch Punkte repräsentierte Menschen wurden getestet.<br />Die Punkte im Oval sind die von dem Test als krank klassifizierten Menschen. Richtig bewertete Fälle sind grün oder gelb, falsch bewertete rot oder grau unterlegt.]]

Um einen Klassifikator zu bewerten, muss man ihn in einer Reihe von Fällen anwenden, bei denen man zumindest im Nachhinein Kenntnis über die „wahre“ Klasse der jeweiligen Objekte hat. Ein Beispiel für so einen Fall ist ein medizinischer Labortest, mit dem festgestellt werden soll, ob eine Person eine bestimmte Krankheit hat. Später wird durch aufwändigere Untersuchungen festgestellt, ob die Person tatsächlich an dieser Krankheit leidet. Der Test stellt einen Klassifikator dar, der die Personen in die Kategorien „krank“ und „gesund“ einordnet. Da es sich um eine Ja/Nein-Frage handelt, sagt man auch, der Test fällt ''positiv'' (Einordnung „krank“) oder ''negativ'' (Einordnung „gesund“) aus. Um zu beurteilen, wie gut geeignet der Labortest für die Diagnose der Krankheit ist, wird nun bei jedem Patienten dessen tatsächlicher Gesundheitszustand mit dem Ergebnis des Tests verglichen. Dabei können vier mögliche Fälle auftreten:
# '''Richtig positiv''': Der Patient ist krank, und der Test hat dies richtig angezeigt.
# '''Falsch negativ''': Der Patient ist krank, aber der Test hat ihn fälschlicherweise als gesund eingestuft.
# '''Falsch positiv''': Der Patient ist gesund, aber der Test hat ihn fälschlicherweise als krank eingestuft.
# '''Richtig negativ''': Der Patient ist gesund, und der Test hat dies richtig angezeigt.

Im ersten und letzten Fall war die Diagnose also richtig, in den anderen beiden Fällen liegt ein Fehler vor. Die vier Fälle werden in verschiedenen Kontexten auch anders benannt. So sind auch die englischen Begriffe ''true positive'', ''false positive'', ''false negative'' und ''true negative'' gebräuchlich. Im Rahmen der [[Signalentdeckungstheorie]] werden richtig positive Fälle auch als ''hit'', falsch negative Fälle als ''miss'' und richtig negative Fälle als ''correct rejection'' bezeichnet.

Es wird nun gezählt, wie häufig jede der vier möglichen Kombinationen von Testergebnis (ermittelte Klasse) und Gesundheitszustand (tatsächliche Klasse) vorgekommen ist. Diese [[Absolute Häufigkeit|Häufigkeiten]] werden in eine sogenannte ''Wahrheitsmatrix'' (auch ''Konfusionsmatrix'' genannt) eingetragen:

{| class="wikitable"
|+ Wahrheitsmatrix (Konfusionsmatrix)
|- id="Wahrheitsmatrix-Zeile0"
!
! Person ist krank<br />(<math>r_\text{p} + f_\text{n}</math>)
! Person ist gesund<br />(<math>f_\text{p} + r_\text{n}</math>)
!
|- id="Wahrheitsmatrix-Zeile1"
! Test positiv<br />(<math>r_\text{p} + f_\text{p}</math>)
| class="hintergrundfarbe9" | richtig positiv (<math>r_\text{p}</math>)
| class="hintergrundfarbe7" | falsch positiv (<math>f_\text{p}</math>)
| '''∑: 100 % der positiven Tests'''
|- id="Wahrheitsmatrix-Zeile2"
! Test negativ<br />(<math>f_\text{n} + r_\text{n}</math>)
| class="hintergrundfarbe5" | falsch negativ (<math>f_\text{n}</math>)
| class="hintergrundfarbe8" | richtig negativ (<math>r_\text{n}</math>)
| '''∑: 100 % der negativen Tests'''
|- id="Wahrheitsmatrix-Zeile3"
|
|
| '''∑: 100 % der kranken Personen'''
! Person ist krank (a+c)
| '''∑: 100 % der gesunden Personen'''
! Person ist gesund (b+d)
|}

''Anmerkungen:'' <math>f</math> steht für „falsch“ (genauer: für die Anzahl an falschen Einstufungen); <math>r</math> steht für „richtig“ (genauer: für die Anzahl an richtigen Einstufungen); der Index <math>\text{p}</math> steht für „positiv“; der Index <math>\text{n}</math> steht für „negativ“. Also: <math>r_\text{p}</math> steht für „richtig positiv“ (genauer: für die Anzahl an richtigerweise als positiv Eingestuften) usw.

Diese Matrix ist ein einfacher Spezialfall einer [[Kontingenztafel]] mit zwei binären [[Nominalskala|nominalen]] Variablen – dem Urteil des Klassifikators und der tatsächlichen Klasse. Sie kann auch für Klassifikationen mit mehr als zwei Klassen eingesetzt werden, dann wird bei <math>N</math> Klassen aus einer 2×2-Matrix eine <math>N \times N</math>-Matrix.

== Statistische Gütekriterien der Klassifikation ==
Durch Berechnung verschiedener ''relativer'' Häufigkeiten können aus den Werten der Wahrheitsmatrix nun [[Kennzahl|Kenngrößen]] zur Beurteilung des Klassifikators berechnet werden. Diese können auch als [[Schätzfunktion|Schätzungen]] der [[Bedingte Wahrscheinlichkeit|bedingten Wahrscheinlichkeit]] für das Eintreten des entsprechenden Ereignisses interpretiert werden. Die Maße unterscheiden sich hinsichtlich der [[Grundgesamtheit]], auf die sich die relativen Häufigkeiten beziehen: So können etwa nur all die Fälle in Betracht gezogen werden, in denen die positive bzw. negative Kategorie ''tatsächlich'' vorliegt, oder man betrachtet die Menge aller Objekte, die als positiv bzw. negativ ''klassifiziert'' werden (Summe über die Einträge einer ''Zeile'' der Wahrheitsmatrix). Diese Wahl hat gravierende Auswirkungen auf die berechneten Werte, insbesondere dann, wenn eine der beiden Klassen insgesamt viel häufiger vorkommt als die andere.

=== {{Anker|Sensitivität und Falsch-Negativ-Rate}} Sensitivität und Falsch-negativ-Rate ===
==== Sensitivität ====
[[Datei:Binary-classification-file sensitivity.svg|mini|Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Sensitivität eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.]]

Die '''Sensitivität''' (auch '''Richtig-positiv-Rate''', '''Empfindlichkeit''' oder '''Trefferquote'''; englisch ''sensitivity'', ''true positive rate'', ''recall'' oder ''hit rate'') gibt die Wahrscheinlichkeit an, mit der ein positives Objekt korrekt als positiv klassifiziert wird. Beispielsweise entspricht die Sensitivität bei einer medizinischen Diagnose dem Anteil an tatsächlich Kranken, bei denen die Krankheit auch erkannt wurde. Die Sensitivität eines Tests gibt an, mit welcher Wahrscheinlichkeit ein Infizierter auch tatsächlich erkannt wurde. Beispielsweise bedeutet eine Sensitivität eines Tests auf ein Virus von 98 %, dass (bei ausreichend großer Anzahl an durchgeführten Tests und unabhängig von den Testvorbedingungen) 98 % der Infizierten erkannt und 2 % der Infizierten nicht erkannt würden. 2 % (der Infizierten, welche getestet wurden, und nicht aller Getesteten) wären dann also falsch negativ.

Die Sensitivität entspricht der geschätzten bedingten Wahrscheinlichkeit

:<math>P(\text{krank mit positivem Testergebnis}|\text{tatsächlich krank}) = \frac{r_\text{p}}{r_\text{p} + f_\text{n}}</math>.

Im Kontext des statistischen Hypothesentests wird die Sensitivität des Tests als [[Trennschärfe eines Tests|Trennschärfe des Tests]] bezeichnet, obwohl der Begriff Trennschärfe in diesem Kontext eine allgemeinere Verwendung hat, die im vorliegenden Kontext nicht anwendbar ist.

==== Falsch-negativ-Rate ====
[[Datei:Binary-classification-file false negative rate.svg|mini|Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Falsch-negativ-Rate eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.]]

Entsprechend gibt die '''Falsch-negativ-Rate''' (englisch ''false negative rate'' oder ''miss rate'') den Anteil der fälschlich als negativ klassifizierten Objekte an der Gesamtheit der positiven Objekte an. Also im Beispiel die tatsächlich Kranken, die aber als gesund diagnostiziert werden.

Die Falsch-negativ-Rate entspricht der geschätzten bedingten Wahrscheinlichkeit

:<math>P(\text{krank mit negativem Testergebnis}|\text{tatsächlich krank}) = \frac{f_\text{n}}{r_\text{p} + f_\text{n}}</math>.

==== Zusammenhang ====
Da sich beide Maße auf den Fall beziehen, dass in Wirklichkeit die positive Kategorie vorliegt ([[#Wahrheitsmatrix-Zeile0|erste Spalte der Wahrheitsmatrix]]), addieren sich die Sensitivität und die Falsch-negativ-Rate zu 1 bzw. 100 %.

:<math>\text{Sensitivität} + \text{Falsch-negativ-Rate} = 1</math>
<div style="clear:both;"></div>

=== {{Anker|Spezifität und Falsch-Positiv-Rate}} Spezifität und Falsch-positiv-Rate ===
==== Spezifität ====
[[Datei:Binary-classification-file specifity.svg|mini|Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Spezifität eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.]]

Die '''Spezifität''' (auch '''Richtig-negativ-Rate''' oder '''kennzeichnende Eigenschaft'''; englisch: ''specificity'', ''true negative rate'' oder ''correct rejection rate'') gibt die Wahrscheinlichkeit an, mit der ein negatives Objekt korrekt als negativ klassifiziert wird. Beispielsweise entspricht die Spezifität bei einer medizinischen Diagnose dem Anteil an Gesunden, bei denen auch festgestellt wurde, dass keine Krankheit vorliegt. Die Spezifität eines Tests gibt an, mit welcher Wahrscheinlichkeit ein Nicht-Infizierter auch tatsächlich erkannt würde. Beispielsweise bedeutet eine Spezifität eines Tests auf ein Virus von 98 %, dass (bei ausreichend großer Anzahl an durchgeführten Tests und unabhängig von den Testvorbedingungen) 98 % der Nicht-Infizierten tatsächlich erkannt und 2 % der Nicht-Infizierten fälschlich als infiziert ausgewiesen würden. 2 % (der getesteten Nicht-Infizierten, nicht der Getesteten insgesamt) wären dann also falsch positiv.

Die Spezifität entspricht der geschätzten bedingten Wahrscheinlichkeit

:<math>P(\text{gesund mit negativem Testergebnis}|\text{tatsächlich gesund}) = \frac{r_\text{n}}{r_\text{n} + f_\text{p}}</math>.

==== Falsch-positiv-Rate ====
[[Datei:Binary-classification-file fallout.svg|mini|Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Falsch-positiv-Rate eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.]]

Entsprechend gibt die '''Falsch-positiv-Rate''' (auch '''Ausfallrate'''; englisch ''fallout'' oder ''false positive rate'') den Anteil der fälschlich als positiv klassifizierten Objekte an, die in Wirklichkeit negativ sind. Im Beispiel würde dann ein tatsächlich Gesunder zu Unrecht als krank diagnostiziert. Es wird also die Wahrscheinlichkeit für einen [[Fehlalarm]] angegeben.

Die Falsch-positiv-Rate entspricht der geschätzten bedingten Wahrscheinlichkeit

:<math>P(\text {gesund mit positivem Testergebnis}|\text{tatsächlich gesund}) = \frac{f_\text{p}}{r_\text{n} + f_\text{p}}</math>.

==== Zusammenhang ====
Da sich beide Maße auf den Fall beziehen, dass in Wirklichkeit die negative Kategorie vorliegt ([[#Wahrheitsmatrix-Zeile0|zweite Spalte der Wahrheitsmatrix]]), addieren sich die Spezifität und die Falsch-positiv-Rate zu 1 bzw. 100 %.

:<math>\text{Spezifität} + \text{Falsch-positiv-Rate} = 1</math>
<div style="clear:both;"></div>

=== Positiver und negativer Vorhersagewert ===
Während Sensitivität und Spezifität eines medizinischen Tests [[Epidemiologie|epidemiologisch]] und gesundheitspolitisch relevante Kenngrößen sind (beispielsweise bei der Frage, ob ein Einsatz im [[Screening]] zur [[Früherkennung von Krankheiten]] sinnvoll ist), ist im konkreten Fall für Patient und Arzt der Vorhersagewert entscheidend. Nur er beantwortet einem positiv/negativ Getesteten die Frage, mit welcher Wahrscheinlichkeit er denn nun wirklich krank/gesund ist.

==== Positiver Vorhersagewert ====
[[Datei:Binary-classification-file precision.svg|mini|Positiver Vorhersagewert]]

Der '''positive Vorhersagewert''' (auch '''Relevanz''', '''Wirksamkeit''', '''Genauigkeit''', '''positiver prädiktiver Wert'''; englisch: ''precision'' oder ''positive predictive value''; Abkürzung: PPV) gibt den Anteil der korrekt als positiv klassifizierten Ergebnisse an der Gesamtheit der als positiv klassifizierten Ergebnisse an ([[#Wahrheitsmatrix-Zeile1|erste Zeile der Wahrheitsmatrix]]). Beispielsweise gibt der positive Vorhersagewert eines medizinischen Tests an, welcher Anteil der Personen mit positivem Testergebnis auch tatsächlich krank ist.

Der positive Vorhersagewert entspricht der geschätzten bedingten Wahrscheinlichkeit

:<math>P(\text{tatsächlich krank}|\text{positives Testergebnis}) = \frac{r_\text{p}}{r_\text{p} + f_\text{p}}</math>.

Komplement des positiven Vorhersagewerts ist die als bedingte Wahrscheinlichkeit wie folgt zu formulierende '''[[Falscherkennungsrate]]''' (englisch: ''false discovery rate''; Abkürzung: FDR):

:<math>P(\text{tatsächlich gesund}|\text{positives Testergebnis}) = \frac{f_\text{p}}{r_\text{p} + f_\text{p}}</math>.

==== Negativer Vorhersagewert ====
[[Datei:Binary-classification-file npv.svg|mini|Negativer Vorhersagewert]]

Entsprechend gibt der '''negative Vorhersagewert''' (auch '''Segreganz''' oder '''Trennfähigkeit'''; englisch: ''negative predictive value''; Abkürzung: NPV) den Anteil der korrekt als negativ klassifizierten Ergebnisse an der Gesamtheit der als negativ klassifizierten Ergebnisse an ([[#Wahrheitsmatrix-Zeile2|zweite Zeile der Wahrheitsmatrix]]). Im Beispiel entspricht das dem Anteil der Personen mit negativem Testergebnis, der auch tatsächlich gesund ist.

Der negative Vorhersagewert entspricht der geschätzten bedingten Wahrscheinlichkeit

:<math>P(\text{tatsächlich gesund}|\text{negatives Testergebnis}) = \frac{r_\text{n}}{r_\text{n} + f_\text{n}}.</math>

Komplement des negativen Vorhersagewerts ist die als bedingte Wahrscheinlichkeit wie folgt zu formulierende '''Falschauslassungsrate''' (englisch: ''false omission rate''; Abkürzung: FOR):

:<math>P(\text{tatsächlich krank}|\text{negatives Testergebnis}) = \frac{f_\text{n}}{r_\text{n} + f_\text{n}}</math>.

==== Zusammenhänge ====
Anders als die anderen Paare von Gütemaßen addieren sich der negative und der positive Vorhersagewert ''nicht'' zu 1 bzw. 100 %, da jeweils von unterschiedlichen Fällen ausgegangen wird (tatsächlich positiv bzw. tatsächlich negativ, d.&nbsp;h. unterschiedliche Spalten der Wahrheitsmatrix). Die Vorhersagewerte können aus Sensitivität <math>s</math> und Spezifität <math>z</math> berechnet werden, dazu muss aber die Prätestwahrscheinlichkeit <math>p</math> (entspricht bei Krankheiten der [[Prävalenz]] in der untersuchten Population) bekannt sein oder geschätzt werden. Der positive Vorhersagewert profitiert von einer hohen Prätestwahrscheinlichkeit, der negative Vorhersagewert von einer niedrigen Prätestwahrscheinlichkeit. Ein positives medizinisches Testergebnis hat also eine viel höhere Aussagekraft, wenn der Test auf Verdacht durchgeführt wurde, als wenn er allein dem [[Screening]] diente.

{| class="wikitable"
|+ [[Vierfeldertafel]] mit relativen Häufigkeiten und Berechnung der Vorhersagewerte
!
! krank
! gesund
! Summe
! Vorhersagewert
|-
|-
! Test positiv (a+b)
! positiv
| <math>s \cdot p</math>
| bgcolor=#CCFF99 | [[richtig positiv]] (a)
| <math>(1-z) \cdot (1-p)</math>
| bgcolor=#FF9966 | [[falsch positiv]] (b)
| <math>s \cdot p + (1-z) \cdot (1-p)</math>
| <math>\frac{s \cdot p}{s \cdot p + (1-z) \cdot (1-p)}</math>
|-
|-
! Test negativ (c+d)
! negativ
| <math>(1-s) \cdot p</math>
| bgcolor=#FF9966 | [[falsch negativ]] (c)
| <math>z \cdot (1-p)</math>
| bgcolor=#CCFF99 | [[richtig negativ]] (d)
| <math>(1-s) \cdot p + z \cdot (1-p)</math>
| <math>\frac{z \cdot (1-p)}{(1-s) \cdot p + z \cdot (1-p)}</math>
|-
! Summe
| <math>p</math>
| <math>1-p</math>
| <math>1</math>
|
|}
|}


Die für ein [[Kollektiv]] ermittelten positiven und negativen Vorhersagewerte sind auf andere Kollektive nur dann übertragbar, wenn die relative Häufigkeit der positiven Fälle dort dieselbe ist. Beispiel: Wurden zur Bestimmung des positiven Vorhersagewerts 100&nbsp;[[HIV]]-Patienten und 100&nbsp;gesunde Kontrollpatienten untersucht, so ist der Anteil an HIV-Patienten in dieser Gruppe (50 %) weit von der HIV-Prävalenz in der [[Deutschland|BRD]] (0,08 %) entfernt (siehe dazu auch das unten genannte [[#HIV in der BRD|Zahlenbeispiel]]). Die Vorhersagewerte wären also völlig andere, wenn derselbe Test an einem zufällig ausgewählten Menschen durchgeführt wird.
In den Fällen ''a'' (Person ist krank und die Krankheit wird erkannt) und ''d'' (Person ist gesund und der Test meldet keine Krankheit) ist die Einteilung richtig.
In den Fällen ''b'' (falsche Diagnose auf Krankheit) und ''c'' (Krankheit wird vom Test nicht erkannt) liegt ein Fehler vor.<br>
Statistisch wird der Fehler im Fall ''b'', wo ein [[falsch positiv]]es Testergebnis real Gesunde als Kranke identifiziert, als [[Fehler 1. Art]] oder α-Fehler bezeichnet.
Im Fall ''c'' mit dem [[falsch negativ]]en Testergebnis, wo ein Kranker nicht erkannt wird, spricht man vom [[Fehler 2. Art]] oder β-Fehler .


=== Likelihood-Quotienten ===
Trägt man die absolute Häufung der Probanden in eine [[Vierfeldertafel]] ein, kann man verschiedene Kenngrößen der [[Klassifizierung]] errechnen, die ihrerseits eine Gütebeschreibung des verwendeten Klassifikators (des verwendeten medizinischen Tests) gestatten:
Einfacher als die Wahrscheinlichkeit des Vorliegens einer Krankheit lässt sich die [[Chance (Stochastik)|Chance]] (Odd) des Vorliegens einer Krankheit berechnen. Ein positives Testergebnis vergrößert die Chance, krank zu sein, um einen Faktor ([[Chancenverhältnis|Odds-Ratio]]), der als '''Likelihood-Quotient (LQ)''' oder '''[[Thomas Bayes|Bayes]]-Faktor''' bezeichnet und folgendermaßen berechnet wird:<ref>[[Lothar Sachs]], Jürgen Hedderich: ''Angewandte Statistik: Methodensammlung mit R.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2018, ISBN 978-3-662-56657-2, S.&nbsp;192</ref>
* Die '''[[Sensitivität]]''' (Engl: True Positive Rate / Recall) a/(a+c) ist die Wahrscheinlichkeit, dass eine Krankheit erkannt wird (Empfindlichkeit).
* Die '''[[Spezifität]]''' (Engl: True Negative Rate) d/(b+d) ist die Wahrscheinlichkeit, dass es keinen Fehlalarm gibt (Kennzeichnende Eigenschaft).
* Die '''[[Relevanz]]''' (Engl: Precision) a/(a+b) ist die Wahrscheinlichkeit, dass bei einer positiven Diagnose die Person wirklich krank ist (Wirksamkeit oder positiver prädiktiver Wert).
* Die '''[[Segreganz]]''' d/(c+d) ist die Wahrscheinlichkeit, dass die Person gesund ist, wenn keine Krankheit erkannt wurde (Trennfähigkeit oder negativer prädikativer Wert).
* Die '''[[Korrektklassifikationsrate]]''' (Engl: Accuracy) (a+d)/(a+b+c+d) ist die Wahrscheinlichkeit für eine richtige Diagnose
* Die '''[[Falschklassifikationsrate]]''' (b+c)/(a+b+c+d) ist die Wahrscheinlichkeit für eine falsche Diagnose


:<math>\mathrm{LQ}_\text{positiv} = \frac{\text{Sensitivität}}{1 - \text{Spezifität}}</math>
Diese Kennwerte beeinflussen sich leider gegenseitig. Handelt es sich nicht um einen qualitativen Test, sondern um einen quantitativen, bei dem man den Grenzwert willkürlich festlegen kann, so kann man die Rate der falsch positiven Ergebnisse auf Kosten der falsch-negativ-Rate verringern und umgekehrt. Anders formuliert: Je sicherer Kranke mit dem Test identifiziert werden sollen (höhere Sensitivität), um so mehr Gesunde werden auch fälschlich als Kranke klassifiziert.Darüber hinaus wird auch ein extremes Ungleichgewicht zwischen Kranken und Gesunden verfälschen. Ist beispielsweise die Anzahl der an einem Test teilnehmenden Kranken erheblich geringer als die der Gesunden, so führt dies im allgemeinen zu einem geringen Wert in der [[Relevanz]].


Die Chance <math>o(\text{krank}|\text{positiv})</math>, bei positivem Testergebnis tatsächlich krank zu sein, beträgt somit
Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte [[Screening]]-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch negativer Ergebnisse vorliegt. Die produzierten falsch positiven Testergebnisse werden anschließend durch einen Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von HIV sogar gefordert.


:<math>o(\text{krank}|\text{positiv}) = o_\text{vor dem Test} \cdot \frac{\text{Sensitivität}}{1-\text{Spezifität}}</math>.
Je nach Einsatzgebiet kann eine [[Fehlklassifikation]] mehr oder weniger schlimme Folgen haben. Ihre Auswirkungen lassen sich zur Bewertung eines [[Klassifikator]]s in einer [[Kostenmatrix]] angeben.


Da kleine Chancen näherungsweise mit Wahrscheinlichkeiten gleichgesetzt werden können, lässt sich der positive Vorhersagewert oft über das Produkt von Prätestwahrscheinlichkeit und Bayes-Faktor abschätzen.
Ein Diagramm der Klassifikatorgüte liefert die '''[[Receiver Operating Characteristic]]''' (ROC), die auch eine [[Grenzwert]][[optimierung]] ermöglicht.


Ein negatives Testergebnis verändert die Chance analog um den Bayes-Faktor
== reale Beispiele==

=== Aids in BRD ===
:<math>\mathrm{LQ}_\text{negativ} = \frac{1 - \text{Sensitivität}}{\text{Spezifität}}</math>.
Das Ziel eines Aids-Tests sollte die möglichst vollständige Erkennung eines Infizierten sein. Aber welche Konsequenzen ein falsch positiver Test haben kann, zeigt das Beispiel eines Menschen der sich auf [[HIV]] testen lässt und dann aufgrund eines falsch-positiven Ergebnisses [[Suizid]] begeht.

Ein weiteres sich aus den beiden obengenannten Kenngrößen ableitendes und damit ebenfalls prävalenzunabhängiges Maß der Leistungsfähigkeit eines Tests ist das sogen. '''Diagnostische [[Chancenverhältnis]] (DOR)''' (englisch ''diagnostic odds ratio''), das sich wie folgt berechnet:
Bei einer angenommenen Genauigkeit von 99,9 % des kombinierten AIDS-Tests sowohl für positive als auch negative Ergebnisse (Sensitivität und Spezifität = 0,999) und der aktuellen Verbreitung von AIDS (Stand 2003) in der Deutschen Bevölkerung (80.000.000 Einwohner, davon 40.000 HIV-positiv) wäre ein allgemeiner AIDS-Test verheerend.

{| border=1 bordercolor=#000000 cellpadding=5 cellspacing=0
:<math>\mathrm{DOR} = \frac{\mathrm{LQ}_\text{positiv}}{\mathrm{LQ}_\text{negativ}} = \frac{\text{Sensitivität} \cdot \text{Spezifität} }{(1 - \text{Sensitivität}) \cdot (1 - \text{Spezifität})}</math>.

<!-- Siehe auch [[:en:Diagnostic odds ratio]] -->

=== Korrekt- und Falschklassifikationsrate ===
Die ''Korrektklassifikationsrate'' (auch '''Vertrauenswahrscheinlichkeit''' oder '''Treffergenauigkeit'''; englisch: ''accuracy'') gibt den Anteil aller Objekte an, die korrekt klassifiziert werden. Der restliche Anteil entspricht der '''Falschklassifikationsrate''' (auch Größe des '''Klassifikationsfehlers'''). Im Beispiel der Diagnose wäre die Korrektklassifikationsrate der Anteil an richtig positiven und richtig negativen Diagnosen an der Gesamtzahl der Diagnosen, die Falschklassifikationsrate hingegen der Anteil der falsch positiven und falsch negativen Diagnosen.

==== Korrektklassifikationsrate ====
[[Datei:Binary-classification-file ccr.svg|mini|Korrektklassifikationsrate]]

Die Korrektklassifikationsrate (accuracy) entspricht der geschätzten Wahrscheinlichkeit

:<math>P(\text{richtig klassifiziert}) = \frac{\text{richtig klassifiziert}}{\text{alle Fälle}} = \frac{r_\text{p} + r_\text{n}}{r_\text{p} + f_\text{p} + r_\text{n} + f_\text{n}}</math>.

==== Falschklassifikationsrate ====
[[Datei:Binary-classification-file fcr.svg|mini|Falschklassifikationsrate]]

Die Falschklassifikationsrate entspricht der geschätzten Wahrscheinlichkeit

:<math>P(\text{falsch klassifiziert}) = \frac{\text{falsch klassifiziert}}{\text{alle Fälle}} = \frac{f_\text{p} + f_\text{n}}{r_\text{p} + f_\text{p} + r_\text{n} + f_\text{n}}</math>.

==== Zusammenhang ====
Die Korrekt- und die Falschklassifikationsrate addieren sich entsprechend zu&nbsp;1 oder 100 %.

:<math>\text{Korrektklassifikationsrate} + \text{Falschklassifikationsrate} = 1</math>
<div style="clear:both;"></div>

=== Kombinierte Maße ===
Da sich die verschiedenen Gütemaße gegenseitig beeinflussen (siehe Abschnitt [[#Probleme|Probleme]]), wurden verschiedene kombinierte Maße vorgeschlagen, die eine Beurteilung der Güte mit einer einzigen Kennzahl erlauben. Die im Folgenden vorgestellten Maße wurden im Kontext des [[Information Retrieval]] entwickelt (siehe [[#Anwendung im Information Retrieval|Anwendung im Information Retrieval]]).

==== ''F''-Maß ====
[[Bild:PR curve with optimal fscore.png|mini|Precision-Recall Curve, die Farben zeigen die Thresholds an durch die die Precision und Recall-Werte erlangt wurden. Der Punkt mit maximalem F-score ist rot.]]

Das ''F-Maß'' kombiniert [[#Positiver und negativer Vorhersagewert|Genauigkeit]] (precision, <math>P</math>) und [[#Sensitivität und Falsch-negativ-Rate|Trefferquote]] (recall, <math>R</math>) mittels des gewichteten [[Harmonisches Mittel|harmonischen Mittels]]:

:<math>F = 2 \cdot \frac{P \cdot R}{P + R}</math>

Neben diesem auch als <math>F_1</math> bezeichneten Maß, bei dem Genauigkeit und Trefferquote gleich gewichtet sind, gibt es auch andere Gewichtungen. Der Allgemeinfall ist das Maß <math>F_\alpha</math> (für positive Werte von <math>\alpha</math>):

:<math>F_\alpha = (1 + \alpha^2) \cdot \frac{P \cdot R}{\alpha^2 \cdot P + R}</math>

Beispielsweise gewichtet <math>F_{2}</math> die Trefferquote viermal so hoch wie die Genauigkeit und <math>F_{0{,}5}</math> die Genauigkeit viermal so hoch wie die Trefferquote.

==== Effektivitätsmaß ====
Das ''Effektivitätsmaß'' <math>E</math> entspricht ebenfalls dem gewichteten harmonischen Mittel. Es wurde 1979 von [[Cornelis Joost van Rijsbergen]] eingeführt. Die Effektivität liegt zwischen 0 (beste Effektivität) und 1 (schlechte Effektivität). Für einen Parameterwert von <math>\alpha = 0</math> ist <math>E</math> äquivalent zur Trefferquote, für einen Parameterwert von <math>\alpha = 1</math> äquivalent zur Genauigkeit.

:<math>E = 1-\frac{1}{\alpha\left(\frac{1}{P}\right)+(1-\alpha)\frac{1}{R}}</math>

=== Funktionsgraphen ===
[[Datei:Graphs of f1(x)=x÷(x+1) and f2(x)=1÷(x+1).svg|mini|alt=Abgebildet sind zwei Funktionsgraphen: In rot ist der Graph von f1(x)=x/(x+1) und in blau gestrichelt jener von f2(x)=1/(x+1) dargestellt; eine Legende rechts mittig im Bild spiegelt das wider. Die Abszisse ist mit x beschriftet und umfasst das Intervall von 0 bis 12,5 mit Achsen-Beschriftungen in 1er-Schritten. Die Ordinate ist mit P (= bedingte Wahrscheinlichkeit) beschriftet und reicht von 0 bis 1 mit Achsen-Beschriftungen in 0,1er-Schritten. Der Funktionsgraph von f1(x) entspringt im Nullpunkt und nähert sich mit steigendem x asymptotisch P=1, was durch eine grün gestrichelte Gerade und eine entsprechende Beschriftung dargestellt ist. Der Funktionsgraph von f2(x) beginnt für x=0 bei P=1 und nähert sich mit steigendem x asymptotisch P=0, was ebenfalls durch eine grün gestrichelte Gerade und eine entsprechende Beschriftung dargestellt ist. Die beiden Funktionen f1(x) und f2(x) sind zueinander spiegelsymmetrisch bezüglich der Geraden P=0,5, die grün strich-punktiert eingezeichnet ist. Im Hintergrund liegt ein rechtwinkliges blassgraues Linienraster, das das kartesische Koordinatensystem des I. Quadranten zeigt.|Funktionsgraphen von <math>{\color[rgb]{1,0,0} f_1(x) = \tfrac{x}{x + 1}}</math> und <math>{\color[rgb]{0,0,1} f_2(x) = \tfrac{1}{x + 1}}</math>]]

Für die sechs Kennzahlen [[#Sensitivität|Sensitivität]], [[#Falsch-negativ-Rate|Falsch-negativ-Rate]], [[#Spezifität|Spezifität]], [[#Falsch-positiv-Rate|Falsch-positiv-Rate]], [[#Positiver Vorhersagewert|positiver Vorhersagewert]] und [[#Negativer Vorhersagewert|negativer Vorhersagewert]] lassen sich normierte, [[2D|zweidimensionale]] [[Funktionsgraph]]en darstellen:

Betrachtet man beispielsweise das [[Quotient|Verhältnis]] von <math>r_\text{p}</math> zu <math>f_\text{n}</math> und setzt

: <math>x_\text{pn} := \frac{r_\text{p}}{f_\text{n}}</math>,

so erhält man für die Sensitivität

: <math>\text{Sensitivität} = \frac{r_\text{p}}{r_\text{p} + f_\text{n}} = \frac{x_\text{pn} \cdot f_\text{n}}{x_\text{pn} \cdot f_\text{n} + f_\text{n}} = \frac{x_\text{pn}}{x_\text{pn} + 1} = {\color[rgb]{1,0,0} f_1(x_\text{pn})} = {\color[rgb]{0,0,1} f_2\left( \frac{1}{x_\text{pn}} \right)}</math>

und für die Falsch-negativ-Rate

: <math>\text{Falsch-negativ-Rate} = \frac{f_\text{n}}{r_\text{p} + f_\text{n}} = \frac{f_\text{n}}{x_\text{pn} \cdot f_\text{n} + f_\text{n}} = \frac{1}{x_\text{pn} + 1} = {\color[rgb]{0,0,1} f_2(x_\text{pn})} = {\color[rgb]{1,0,0} f_1\left( \frac{1}{x_\text{pn}} \right)}</math>,

wobei die beiden [[Funktion (Mathematik)|Funktionen]] <math>{\color[rgb]{1,0,0} f_1(x)}</math> und <math>{\color[rgb]{0,0,1} f_2(x)}</math>, deren Graphen hier abgebildet sind, definiert sind als:

* <math>{\color[rgb]{1,0,0} f_1(x) := \frac{x}{x + 1}}</math>
* <math>{\color[rgb]{0,0,1} f_2(x) := \frac{1}{x + 1}}</math>

Diese Vorgangsweise ist nur deshalb möglich, weil die Sensitivität die Eigenschaft besitzt, dass es für ihren Wert nicht auf die beiden konkreten Einzelwerte <math>r_\text{p}</math> und <math>f_\text{n}</math> ankommt, sondern ausschließlich auf deren Verhältnis <math>\tfrac{r_\text{p}}{f_\text{n}}</math> (bzw. dessen [[Kehrwert]] <math>\tfrac{f_\text{n}}{r_\text{p}}</math>). Daher kann die Sensitivität, die –&nbsp;als zwei[[Stelligkeit|stellige]] Funktion formuliert&nbsp;– von den zwei Variablen <math>r_\text{p}</math> und <math>f_\text{n}</math> abhängt, auch als einstellige Funktion in Abhängigkeit von <math>x_\text{pn} := \tfrac{r_\text{p}}{f_\text{n}}</math> (bzw. <math>\tilde x_\text{pn} := \tfrac{f_\text{n}}{r_\text{p}}</math>) dargestellt werden, wodurch sich zweidimensionale Funktionsgraphen zeichnen lassen. Dasselbe gilt auch für die Falsch-negativ-Rate.

Für die übrigen vier Kennwerte lässt sich analog vorgehen (wobei zu beachten ist, dass für <math>x</math> verschiedene Verhältnisse verwendet werden), wie die folgende tabellarische Zusammenfassung zeigt:

{| class="wikitable hintergrundfarbe2"
|+ Zusammenfassung
! Kennzahl
! Verhältnis
! Formel
|-
|-
| Sensitivität
|
| rowspan="2" | <math>x_\text{pn} := \frac{r_\text{p}}{f_\text{n}}</math>
! HIV pos.
| <math>\frac{r_\text{p}}{r_\text{p} + f_\text{n}} = \frac{x_\text{pn}}{x_\text{pn} + 1} = {\color[rgb]{1,0,0} f_1(x_\text{pn})} = {\color[rgb]{0,0,1} f_2\left( \frac{1}{x_\text{pn}} \right)}</math>
! HIV neg.
!
|-
|-
| Falsch-negativ-Rate
! AIDS-Test positiv
| <math>\frac{f_\text{n}}{r_\text{p} + f_\text{n}} = \frac{1}{x_\text{pn} + 1} = {\color[rgb]{0,0,1} f_2(x_\text{pn})} = {\color[rgb]{1,0,0} f_1\left( \frac{1}{x_\text{pn}} \right)}</math>
| bgcolor=#CCFF99 | 40 000
| bgcolor=#FF9966 | 80 000
| 120 000
|-
|-
| Spezifität
! AIDS-Test negativ
| rowspan="2" | <math>x_\text{np} := \frac{r_\text{n}}{f_\text{p}}</math>
| bgcolor=#FF9966 | 40
| <math>\frac{r_\text{n}}{r_\text{n} + f_\text{p}} = \frac{x_\text{np}}{x_\text{np} + 1} = {\color[rgb]{1,0,0} f_1(x_\text{np})} = {\color[rgb]{0,0,1} f_2\left( \frac{1}{x_\text{np}} \right)}</math>
| bgcolor=#CCFF99 | ca.80 Mio
|
|-
| Falsch-positiv-Rate
| <math>\frac{f_\text{p}}{r_\text{n} + f_\text{p}} = \frac{1}{x_\text{np} + 1} = {\color[rgb]{0,0,1} f_2(x_\text{np})} = {\color[rgb]{1,0,0} f_1\left( \frac{1}{x_\text{np}} \right)}</math>
|-
| Positiver Vorhersagewert
| <math>x_\text{pp} := \frac{r_\text{p}}{f_\text{p}}</math>
| <math>\frac{r_\text{p}}{r_\text{p} + f_\text{p}} = \frac{x_\text{pp}}{x_\text{pp} + 1} = {\color[rgb]{1,0,0} f_1(x_\text{pp})} = {\color[rgb]{0,0,1} f_2\left( \frac{1}{x_\text{pp}} \right)}</math>
|-
|-
| Negativer Vorhersagewert
! Summe
| <math>x_\text{nn} := \frac{r_\text{n}}{f_\text{n}}</math>
|
| <math>\frac{r_\text{n}}{r_\text{n} + f_\text{n}} = \frac{x_\text{nn}}{x_\text{nn} + 1} = {\color[rgb]{1,0,0} f_1(x_\text{nn})} = {\color[rgb]{0,0,1} f_2\left( \frac{1}{x_\text{nn}} \right)}</math>
|
| 80 Mio
|}
|}


== Probleme ==
Zwar würden von 40.000 tatsächlich Erkrankten lediglich 40 HIV-IInfizierte fälschlicherweise nicht erkannt, aber ca. 80.000 Personen würden fälschlicherweise als HIV-Positiv diagnostiziert.
=== Gegenseitige Beeinflussungen ===
Von 120.000 positiven Ergebnissen wären etwa 66 % [[falsch positiv]]. Somit liegt die [[Wahrscheinlichkeit]], dass jemand der positiv getestet wurde auch wirklich HIV-positiv ist, bei nur 33%. Anders formuliert, die Relevanz beträgt 33%.<br>
Es ist nicht möglich, alle Gütekriterien unabhängig voneinander zu optimieren. Insbesondere sind die Sensitivität und die Spezifität negativ miteinander [[Korrelation|korreliert]]. Zur Veranschaulichung dieser Zusammenhänge ist es hilfreich, die Extremfälle zu betrachten:
Ein zweiter Test kann die Unsicherheit hingegen drastisch reduzieren. Die Wahrscheinlichkeit, dass jemand HIV-positiv ist, wenn er zwei mal positiv getestet wurde, liegt schon bei 99.8%.
* Wenn eine Diagnose fast alle Patienten als krank klassifiziert (''liberale'' Diagnose), ist die Sensitivität maximal, denn es werden die meisten Kranken auch als solche erkannt. Allerdings wird zugleich die Falsch-positiv-Rate maximal, da auch fast alle Gesunden als krank eingestuft werden. Die Diagnose hat also eine sehr geringe Spezifität.
* Wird hingegen fast niemand als krank eingestuft (''konservative'' Diagnose), ist umgekehrt die Spezifität maximal, allerdings auf Kosten einer geringen Sensitivität.


Wie konservativ oder liberal ein Klassifikator optimalerweise sein sollte, hängt vom konkreten Anwendungsfall ab. Aus diesem leitet sich beispielsweise ab, welche der Fehlklassifikationen die schwererwiegenden Folgen hat. Bei der Diagnose einer schlimmen Krankheit oder sicherheitsrelevanten Anwendungen wie einem Feueralarm ist es wichtig, dass kein Fall unentdeckt bleibt. Bei einer Recherche durch eine Suchmaschine hingegen kann es wichtiger sein, möglichst wenige Resultate zu bekommen, die für die Suche irrelevant sind, also falsch-positive Resultate darstellen. Die Risiken der verschiedenen [[Fehlklassifikation]]en lassen sich zur Bewertung eines Klassifikators in einer [[Kostenmatrix]] angeben, mit der die Wahrheitsmatrix gewichtet wird. Eine weitere Möglichkeit besteht in der Verwendung [[#Kombinierte Maße|kombinierter Maße]], bei denen sich eine entsprechende Gewichtung einstellen lässt.
=== Herzinfarkt in USA ===
In den USA werden pro Jahr etwa 4 Millionen Frauen und Männer aufgrund von Schmerzen in der Brust unter der Verdachtsdiagnose [[Herzinfarkt]] in eine Klinik eingewiesen.
Im Verlauf der aufwändigen und teuren Diagnostik stellt sich dann heraus, dass von diesen Patienten nur etwa 32 % tatsächlich einen Infarkt erlitten haben.
Bei 68 % war die Diagnose [[Infarkt]] nicht korrekt (falsch positive Verdachtsdiagnose).
Andererseits werden in jedem Jahr etwa 34.000 Patienten aus dem Krankenhaus entlassen, ohne dass ein tatsächlich vorhandener Herzinfarkt erkannt wurde (ca. 0,8 % falsch negative Diagnose).


Um die Auswirkungen verschieden konservativer Tests für ein konkretes Anwendungsbeispiel darzustellen, können [[ROC-Kurve]]n erstellt werden, in denen die Sensitivität für verschiedene Tests gegen die Falsch-positiv-Rate aufgetragen wird. Im Rahmen der [[Signalentdeckungstheorie]] spricht man auch von einem verschieden konservativ gesetzten ''Kriterium''.
{| border=1 bordercolor=#000000 cellpadding=5 cellspacing=0

|-
=== Seltene Positiv-Fälle ===
|
Darüber hinaus wird auch ein extremes Ungleichgewicht zwischen tatsächlich positiven und negativen Fällen die Kenngrößen verfälschen, wie es etwa bei seltenen Krankheiten der Fall ist. Ist beispielsweise die Anzahl der an einem Test teilnehmenden Kranken erheblich geringer als die der Gesunden, so führt dies im Allgemeinen zu einem geringen Wert im positiven Vorhersagewert (siehe dazu das unten angeführte [[#HIV in der BRD|Zahlenbeispiel]]). Daher sollte in diesem Fall alternativ zu den Vorhersagewerten der [[#Positiver und negativer Vorhersagewert|Likelihood-Quotient]] angegeben werden.
! Herzinfarkt pos.

! Herzinfarkt neg.
Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte [[Screening]]-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch negativer Ergebnisse vorliegt. Die produzierten falsch positiven Testergebnisse werden anschließend durch einen (teureren) Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von [[HIV]] sogar gefordert.

=== Unvollständige Wahrheitsmatrix ===
Ein weiteres Problem bei der Beurteilung eines Klassifikators besteht darin, dass häufig nicht die gesamte Wahrheitsmatrix ausgefüllt werden kann. Insbesondere ist oft die Falsch-negativ-Rate nicht bekannt, etwa wenn bei Patienten, die eine negative Diagnose erhalten, keine weiteren Tests durchgeführt werden und eine Krankheit unerkannt bleibt, oder wenn ein eigentlich relevantes Dokument bei einer Recherche nicht gefunden wird, weil es nicht als relevant klassifiziert wurde. In diesem Fall können nur die als positiv klassifizierten Ergebnisse ausgewertet werden, d.&nbsp;h., es kann nur der positive Vorhersagewert berechnet werden (siehe dazu auch das unten angeführte [[#Herzinfarkt in den USA|Zahlenbeispiel]]). Mögliche Lösungen für dieses Problem werden im Abschnitt [[#Anwendung im Information Retrieval|Anwendung im Information Retrieval]] besprochen.

== Klassifikationsbewertung und statistische Testtheorie ==
{| class="wikitable"
!
!
! Binäre Klassifikation
! Statistischer Test
|-
|-
! Ziel
! Untersuchung positiv
| Auf Basis einer [[Stichprobe]] werden Beobachtungen (Objekte) einer der beiden Klassen zugeordnet.
| bgcolor=#CCFF99 | 1,3 Mio
| Mittels einer [[Zufallsstichprobe]] werden zwei sich ausschließende [[Hypothese]]n (Null- und Alternativhypothese) über die [[Grundgesamtheit]] geprüft.
| bgcolor=#FF9966 |
|
|-
|-
! Vorgehen
! Untersuchung negativ
| Der Klassifikator ist eine aus der Stichprobe geschätzte [[Regressionsfunktion]] mit zwei möglichen Ergebniswerten.
| bgcolor=#FF9966 | 34 000
| Der Prüfwert wird mittels einer [[Teststatistik]] aus der Zufallsstichprobe berechnet und mit kritischen Werten, die aus der Verteilung der Teststatistik berechnet werden, verglichen.
| bgcolor=#CCFF99 | 2,75 Mio
|
|-
|-
! Ergebnis
! Summe
| Für eine Beobachtung wird eine Klassenzugehörigkeit vorhergesagt.
| 32%
| Aufgrund des Vergleiches von Prüfwert und kritischen Werten kann die Alternativhypothese angenommen oder verworfen werden.
| 68%
|-
| ca. 4 Mio
! Fehler
| Die Qualität eines Klassifikators wird mit der Falschklassifikationsrate (falsch positiv und falsch negativ) im Nachhinein beurteilt.
| Vor der Testdurchführung wird die Größe des [[Fehler 1. Art|Fehlers 1.&nbsp;Art]] (fälschlich Annahme der Alternativhypothese) festgelegt. Daraus werden die kritischen Werte berechnet. Der [[Fehler 2.&nbsp;Art]] (fälschlich Ablehnung der Alternativhypothese) ist immer unbekannt bei der Testdurchführung.
|}
|}
Auch hier ist die Sensitivität der Untersuchung ähnlich hoch, nämlich 99,8%. Zur Spezifität kann man aber nichts sagen, weil die falsch-positiven Ergebnisse der Untersuchung nicht erwähnt werden, sondern nur die falsch-positiven Eingangsdiagnosen, die auf der Angabe "Herzschmerz" fußen. Betrachtet man aber ausschließlich diese Eingangsdiagnose, dann ist die Angabe der 34000 Patienten, die fälschlich entlassen werden, wertlos, denn sie haben hiermit nichts zu tun. Man benötigt nämlich die Zahl der mit Herzinfarkt nicht eingewiesenen, die wahrscheinlich keinen Herzschmerz hatten.<br>
Man sollte sich immer davor hüten, solch vermischte Angaben verwerten zu wollen und unbedingt auf eine präzise Formulierung der These achten.


=== Klassifikationsbewertung zur Beurteilung der Qualität statistischer Tests ===
== Statistische Grundlagen ==
Mit Hilfe der Klassifikationsbewertung kann die Qualität eines statistischen Tests beurteilt werden:
{| border="1" bordercolor="lightgrey" bgcolor="#EEEEEE" cellspacing="0" cellpadding="10"
|- bgcolor=#EEEEFF
! width="140" |
! width="210" | Wahrer Sachverhalt: [[H0 (Statiskik)|H0]]
! width="260" | Wahrer Sachverhalt: [[H1 (Statistik)|H1]]
|-
| ''durch einen [[statistischer Test|stat. Test]] fällt eine Entscheidung für die [[Nullhypothese]] H0''


* Generiert man viele Stichproben unter Gültigkeit der Nullhypothese, so sollte die Annahmerate der Alternativhypothese dem Fehler 1.&nbsp;Art entsprechen. Aber bei komplizierten Tests kann man oft nur eine obere Grenze für den Fehler 1.&nbsp;Art angeben, sodass der „wahre“ Fehler 1.&nbsp;Art nur mit einer solchen Simulation abgeschätzt werden kann.
| 1-alpha
* Generiert man viele Stichproben unter Gültigkeit der Alternativhypothese, so ist die Ablehnungsrate der Alternativhypothese eine Schätzung des Fehlers 2.&nbsp;Art. Dies ist beispielsweise von Interesse, wenn man zwei Tests für einen Sachverhalt hat. Wenn die Alternativhypothese gilt, dann bevorzugt man den Test, der einen kleineren Fehler 2.&nbsp;Art hat.


=== Statistische Tests zur Beurteilung einer Klassifikation ===
| beta (''Fehler 2. Art'' falsch negativ)
Man kann statistische Tests einsetzen, um zu überprüfen, ob eine Klassifikation statistisch signifikant ist, d.&nbsp;h., ob bezüglich der [[Grundgesamtheit]] die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist (Nullhypothese) oder ob er signifikant mit ihnen korreliert (Alternativhypothese).
|-
| ''durch einen stat.Test fällt eine Entscheidung für die [[alternative Hypothese]] H1''


Im Fall von mehreren Klassen kann dafür der [[Chi-Quadrat-Unabhängigkeitstest]] verwendet werden. Dabei wird geprüft, ob die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist oder signifikant mit ihnen korreliert. Die Stärke der Korrelation wird durch [[Kontingenzkoeffizient]]en abgeschätzt.
| alpha (''Fehler 1. Art'', falsch positiv)


Im Fall einer binären Klassifikation wird der [[Vierfeldertest]] verwendet, ein Spezialfall des Chi-Quadrat-Unabhängigkeitstests. Hat man nur wenige Beobachtungswerte, sollte der [[Exakter Test nach Fisher|Exakte Fisher-Test]] verwendet werden. Die Stärke der Korrelation kann mit dem [[Phi-Koeffizient]] abgeschätzt werden.
| 1-beta. "[[Power]]"
|}


Lehnt der Test die Nullhypothese ab, bedeutet es jedoch nicht, dass der Klassifikator gut ist. Es bedeutet nur, dass er besser ist als (zufälliges) Raten. Ein guter Klassifikator sollte auch eine möglichst hohe Korrelation aufweisen.
''Beispiele''


In Diettrich (1998) werden fünf Tests untersucht zum direkten Vergleich von Missklassifikationsraten von zwei unterschiedlichen Klassifikatoren:<ref>{{Literatur |Autor=Thomas G. Dietterich |Titel=Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms |Sammelwerk=Neural Computation |Band=10 |Nummer=7 |Datum=1998-10-01 |Seiten=1895–1923 |DOI=10.1162/089976698300017197}}</ref>
Ein Angeklagter ist schuldig oder unschuldig und soll verurteilt oder freigelassen werden:
* Ein einfacher [[Zweistichproben-t-Test]] für unabhängige Stichproben,
* ein Zweistichproben-t-Test für verbundene Stichproben,
* ein Zweistichproben-t-Test für verbundene Stichproben mit 10-fach-[[Kreuzvalidierung]],
* der [[McNemar-Test]] und
* ein Zweistichproben-t-Test für verbundene Stichproben mit 5-fach-Kreuzvalidierung und modifizierter Varianzberechnung (5x2cv).
Als Ergebnis der Untersuchung von [[Trennschärfe eines Tests|Güte]] und [[Fehler 1.&nbsp;Art]] der fünf Tests ergibt sich, dass sich der 5x2cv-Test am besten verhält, jedoch sehr rechenaufwendig ist. Der McNemar-Test ist etwas schlechter als der 5x2cv-Test, jedoch deutlich weniger rechenaufwendig.


== Beispiele ==
{| border="1" bordercolor="lightgrey" bgcolor="#EEEEEE" cellspacing="0" cellpadding="10"
=== Anwendung im Information Retrieval ===
|- bgcolor=#EEEEFF
Ein spezieller Anwendungsfall der hier beschriebenen Maße ist die Beurteilung der Güte von Treffermengen einer [[Recherche]] beim [[Information Retrieval]]. Dabei geht es um die Beurteilung, ob ein gefundenes Dokument, etwa beim [[Webmining]] durch [[Suchmaschine]]n, entsprechend einem definierten Kriterium relevant ist. In diesem Zusammenhang sind die [[#Statistische Gütekriterien der Klassifikation|oben definierten]] Bezeichnungen „Trefferquote“ (englisch ''recall''), „Genauigkeit“ (englisch ''precision'') und „Ausfallquote“ (englisch ''fallout'') gebräuchlich. Die Trefferquote gibt den Anteil der bei einer Suche gefundenen relevanten Dokumente und damit die Vollständigkeit eines Suchergebnisses an. Die Genauigkeit beschreibt mit dem Anteil relevanter Dokumente an der Ergebnismenge die Genauigkeit eines Suchergebnisses. Der (weniger gebräuchliche) Ausfall bezeichnet den Anteil gefundener irrelevanter Dokumente an der Gesamtmenge aller irrelevanten Dokumente, er gibt also in negativer Weise an, wie gut irrelevante Dokumente im Suchergebnis vermieden werden. Statt als Maß können Trefferquote, Genauigkeit und Ausfall auch als Wahrscheinlichkeit interpretiert werden:
! width="140" |
! width="210" | Angeklagter ist unschuldig
! width="260" | Angeklagter ist schuldig
|-
| ''durch ein [[Gericht]] fällt eine Entscheidung für'': unschuldig


* Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird (Sensitivität).
| richtige Entscheidung
* Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist (Positiver Vorhersagewert).
* Ausfall ist die Wahrscheinlichkeit, mit der ein irrelevantes Dokument gefunden wird (Falsch-positiv-Rate).


Eine gute Recherche sollte möglichst alle relevanten Dokumente finden (richtig positiv) und die nicht relevanten Dokumente nicht finden (richtig negativ). Wie oben beschrieben, hängen die verschiedenen Maße jedoch voneinander ab. Im Allgemeinen sinkt mit steigender Trefferrate die Genauigkeit (mehr irrelevante Ergebnisse). Umgekehrt sinkt mit steigender Genauigkeit (weniger irrelevante Ergebnisse) die Trefferrate (mehr relevante Dokumente, die nicht gefunden werden). Je nach Anwendungsfall sind die unterschiedlichen Maße zur Beurteilung mehr oder weniger relevant. Bei einer [[Patentrecherche]] ist es beispielsweise wichtig, dass keine relevanten Patente unentdeckt bleiben – also sollte der Negative Vorhersagewert möglichst hoch sein. Bei anderen Recherchen ist es wichtiger, dass die Treffermenge wenige irrelevante Dokumente enthält, d.&nbsp;h., der Positive Vorhersagewert sollte möglichst hoch sein.
| ''ein Schuldiger wird freigesprochen''
|-
| ''durch ein [[Gericht]] fällt eine Entscheidung für'': schuldig
| ''ein Unschuldiger wird verurteilt'' || richtige Entscheidung
|}


Im Kontext des Information Retrieval wurden auch die oben beschriebenen [[#Kombinierte Maße|kombinierten Maße]] wie der F-Wert und die Effektivität eingeführt.
* Eine Person ist für einen Sicherheitsbereich zugangsberechtigt oder nicht zugangsberechtig und soll eingelassen oder nicht eingelassen werden:


==== Genauigkeit-Trefferquote-Diagramm ====
{| border="1" bordercolor="lightgrey" bgcolor="#EEEEEE" cellspacing="0" cellpadding="10"
Zur Einschätzung eines Retrieval-Verfahrens werden meist Trefferquote und Genauigkeit gemeinsam betrachtet. Dazu werden im sogenannten ''Precision-Recall-Diagramm'' (PR-Diagramm) für verschieden große Treffermengen zwischen den beiden Extremen Genauigkeit auf der <math>y</math>-Achse und Trefferquote auf der <math>x</math>-Achse eingetragen. Dies ist vor allem leicht bei Verfahren möglich, deren Treffermenge durch einen Parameter gesteuert werden kann. Dieses Diagramm erfüllt einen ähnlichen Zweck wie die oben beschriebene ROC-Kurve, die man in diesem Zusammenhang auch als Trefferquote-Fallout-Diagramm bezeichnet.
|- bgcolor=#EEEEFF
! width="140" |
! width="210" | Person ist zugangsberechtigt
! width="260" | Person ist nicht zugangsberechtigt
|-
| ''eine [[Zugangskontrolle]] fällt eine Entscheidung für'': Person ist zugangsberechtigt
| richtige Entscheidung || ''Unbefugter erhält Zugang''
|-
| ''eine [[Zugangskontrolle]] fällt eine Entscheidung für'': Person ist nicht zugangsberechtigt


Der (höchste) Wert im Diagramm, an dem der Precision-Wert gleich dem Treffer-Wert ist – also der Schnittpunkt des Genauigkeit-Trefferquote-Diagramms mit der Identitätsfunktion – wird der Genauigkeit-Trefferquote-Breakeven-Punkt genannt. Da beide Werte voneinander abhängen, wird auch oft der eine bei fixiertem anderem Wert genannt. Eine [[Interpolation (Mathematik)|Interpolation]] zwischen den Punkten ist allerdings nicht zulässig, es handelt sich um [[Diskretheit|diskrete]] Punkte, deren Zwischenräume nicht definiert sind.
| ''Berechtigter wird nicht eingelassen''


==== Beispiel ====
| richtige Entscheidung
In einer Datenbank mit 36 Dokumenten sind zu einer Suchanfrage 20 Dokumente relevant und 16 nicht relevant. Eine Suche liefert 12 Dokumente, von denen tatsächlich 8 relevant sind.

{| class="wikitable"
|-
!
! Relevant
! Nicht relevant
! Summe
|-
! Gefunden
| style="text-align: center;" class="hintergrundfarbe9" | {{0}}8
| style="text-align: center;" class="hintergrundfarbe7" | {{0}}4
| style="text-align: center;" | 12
|-
! Nicht gefunden
| style="text-align: center;" class="hintergrundfarbe5" | 12
| style="text-align: center;" class="hintergrundfarbe8" | 12
| style="text-align: center;" | 24
|-
! Summe
| style="text-align: center;" | 20
| style="text-align: center;" | 16
| style="text-align: center;" | 36
|}
|}


Trefferquote und Genauigkeit für die konkrete Suche ergeben sich aus den Werten der Wahrheitsmatrix.
=== Fehler 1. Art ===
* Trefferquote: {{Bruch|8|(8+12)}} = {{Bruch|8|20}} = {{Bruch|2|5}} = 0,4
Vom [[Fehler 1. Art]] (alpha) spricht man, wenn man einen Effekt annimmt, der in Wirklichkeit gar nicht vorhanden ist. Mathematisch formuliert:
* Genauigkeit: {{Bruch|8|(8+4)}} = {{Bruch|8|12}} = {{Bruch|2|3}} ≈ 0,67
* die so genannte Ausgangshypothese "H0" abgelehnt wird, obwohl sie richtig ist.
* Fallout: {{Bruch|4|(4+12)}} = {{Bruch|4|16}} = {{Bruch|1|4}} = 0,25


==== Praxis und Probleme ====
Die Ausgangshypothese (H0, "null" für keinen Unterschied) ist hierbei die Annahme, die Testsituation befinde sich im "Normalzustand", d.h. in den oben genannten Beispielen "''es brennt nicht''", "''der Angeklagte ist unschuldig''", "''der Patient ist gesund''" oder "''die Person hat Zugangsberechtigung''". Wird also dieser "Normalzustand" nicht erkannt, obwohl er tatsächlich vorliegt, handelt es sich um einen Fehler 1. Art.
Ein Problem bei der Berechnung der Trefferquote ist die Tatsache, dass man nur selten weiß, wie viele relevante Dokumente insgesamt existieren und nicht gefunden wurden (Problem der unvollständigen Wahrheitsmatrix). Bei größeren Datenbanken, bei denen die Berechnung der absoluten Trefferquote besonders schwierig ist, wird deswegen mit der ''relativen Trefferquote'' gearbeitet. Dabei wird die gleiche Suche mit mehreren [[Suchmaschine]]n durchgeführt, und die jeweils neuen relevanten Treffer werden zu den nicht gefundenen relevanten Dokumenten addiert. Mit der [[Rückfangmethode]] kann abgeschätzt werden, wie viele relevante Dokumente insgesamt existieren.


Problematisch ist auch, dass zur Bestimmung von Trefferquote und Genauigkeit die [[Relevanz (Informationswissenschaft)|Relevanz]] eines Dokumentes als [[Wahrheitswert]] (ja/nein) bekannt sein muss. In der Praxis ist jedoch oft die [[Subjektive Relevanz]] von Bedeutung. Auch für in einer [[Rangordnung]] angeordnete Treffermengen ist die Angabe von Trefferquote und Genauigkeit oft nicht ausreichend, da es nicht nur darauf ankommt, ob ein relevantes Dokument gefunden wird, sondern auch, ob es im Vergleich zu nicht relevanten Dokumenten genügend hoch in der Rangfolge eingeordnet wird. Bei sehr unterschiedlich großen Treffermengen kann die Angabe durchschnittlicher Werte für Trefferquote und Genauigkeit irreführend sein.
Beispielsweise wird eine Person zu Unrecht als krank bezeichnet, obwohl sie tatsächlich gesund ist. Falsch Positive (englisch: ''false positives'') sind ''zu Unrecht als krank bezeichnete Gesunde''.


=== HIV in der BRD ===
''Nota bene'': Die Aussage "Ein Unterschied, etwa in einer Methode, wird auf einem [[Statistische Signifikanz|Signifikanzniveau]] von 5% festgestellt" ist ''nicht'' gleich bedeutend mit der Aussage: "Wenn ich annehme, es gibt einen Unterschied, dann irre ich mich in 5% der Fälle." Für diese Aussage ist nämlich die [[Power]] (=1-beta) eines Tests zuständig!
Das Ziel eines [[HIV-Test]]s sollte die möglichst sichere Erkennung eines Infizierten sein. Aber welche Konsequenzen ein falsch positiver Test haben kann, zeigt das Beispiel eines Menschen, der sich auf HIV testen lässt und dann aufgrund eines falsch-positiven Ergebnisses [[Suizid]] begeht.


Bei einer angenommenen Genauigkeit von 99,9 % des nicht-kombinierten HIV-Tests sowohl für positive als auch negative Ergebnisse (Sensitivität und Spezifität = 0,999) und der aktuellen Verbreitung von HIV (Stand&nbsp;2009) in der deutschen Bevölkerung (82.000.000&nbsp;Einwohner, davon 67.000&nbsp;HIV-positiv) wäre ein allgemeiner HIV-Test verheerend: bei nicht-kombiniertem HIV-Test würden nämlich von 67.000 tatsächlich Erkrankten lediglich 67&nbsp;HIV-Infizierte fälschlicherweise nicht erkannt, aber ca. 82.000&nbsp;Personen würden fälschlicherweise als HIV-positiv diagnostiziert. Von 148.866&nbsp;positiven Ergebnissen wären etwa 55 % falsch positiv, also mehr als die Hälfte der positiv Getesteten. Somit liegt die [[Wahrscheinlichkeit]], dass jemand, der nur mit dem [[Enzyme-linked Immunosorbent Assay|ELISA]]-Test positiv getestet würde, auch wirklich HIV-positiv wäre, bei nur 45 % (positiver Vorhersagewert). Dieser angesichts der sehr geringen Fehlerrate von 0,1 % niedrige Wert liegt darin begründet, dass HIV nur bei etwa 0,08 % der Bundesbürger auftritt.
Die Häufigkeit für einen Fehler 1. Art wird bei der Berechnung von [[Statistische Signifikanz|Signifikanzen]] als ''[[Irrtumswahrscheinlichkeit]]'' bezeichnet.

{| class="wikitable"
|-
! ELISA-Test
! HIV positiv
! HIV negativ
! Summe
|-
! HIV-Test positiv
| style="text-align: right;" class="hintergrundfarbe9"| 66.933
| style="text-align: right;" class="hintergrundfarbe7"| 81.933
| style="text-align: right;" | 148.866
|-
! HIV-Test negativ
| style="text-align: right;" class="hintergrundfarbe5"| 67
| style="text-align: right;" class="hintergrundfarbe8"| 81.851.067
| style="text-align: right;" | 81.851.134
|-
! Summe
| style="text-align: right;" | 67.000
| style="text-align: right;" | 81.933.000
| style="text-align: right;" | 82.000.000
|}


=== Fehler 2. Art ===
=== Herzinfarkt in den USA ===
In den [[Vereinigte Staaten|USA]] werden pro Jahr etwa vier Millionen Frauen und Männer wegen Schmerzen in der Brust unter der Verdachtsdiagnose [[Herzinfarkt]] in eine Klinik eingewiesen. Im Verlauf der aufwendigen und teuren Diagnostik stellt sich dann heraus, dass von diesen Patienten nur etwa 32 % tatsächlich einen Infarkt erlitten haben. Bei 68 % war die Diagnose [[Infarkt]] nicht korrekt (falsch positive Verdachtsdiagnose). Andererseits werden in jedem Jahr etwa 34.000 Patienten aus dem Krankenhaus entlassen, ohne dass ein tatsächlich vorhandener Herzinfarkt erkannt wurde (ca. 0,8 % falsch negative Diagnose).
Ein [[Fehler 2. Art]] (beta) liegt im umgekehrten Fall vor, wenn man es versäumt, einen Effekt als signifikant zu erklären, obwohl es ihn tatsächlich gibt, bzw.:
* wenn die Ausgangshypothese nicht abgelehnt wurde, obwohl sie falsch ist.


Auch in diesem Beispiel ist die Sensitivität der Untersuchung ähnlich hoch, nämlich 99,8 %. Die Spezifität lässt sich nicht ermitteln, weil die falsch-positiven Ergebnisse der Untersuchung nicht bekannt sind. Bekannt sind nur die falsch-positiven Eingangsdiagnosen, die auf der Angabe „Herzschmerz“ fußen. Betrachtet man ausschließlich diese Eingangsdiagnose, dann ist die Angabe der 34.000 Patienten, die fälschlich entlassen werden, wertlos, denn sie haben hiermit nichts zu tun. Man benötigt nämlich die Zahl der Falsch-Negativen, also jener Personen mit Herzinfarkt, die nicht eingewiesen wurden, weil sie keinen Herzschmerz hatten.
Hier wird also nicht erkannt, dass nicht der "Normalzustand" vorliegt. Die solcherart falsch klassifizierten Zustände werden ''falsch negativ'' genannt.


== Literatur ==
Beispielsweise wird eine Person zu Unrecht als gesund bezeichnet, obwohl sie tatsächlich krank ist. Falsch Negative (englisch: ''false negatives'') sind ''nicht entdeckte Kranke''.
=== Allgemein ===
* [[Hans-Peter Beck-Bornholdt]], [[Hans-Hermann Dubben]]: ''Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken.'' ISBN 3-499-61154-6.
* Gerd Gigerenzer: ''Das Einmaleins der Skepsis.'' Berliner Taschenbuch Verlag, Berlin 2004, ISBN 3-8333-0041-8.


=== Information Retrieval ===
''Nota bene'': Bei der Berechnung mit Alpha und Beta handelt es sich um [[bedingte Wahrscheinlichkeit]]en!
* {{Literatur |Autor=John Makhoul, Francis Kubala, Richard Schwartz und Ralph Weischedel |Online=https://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.4637 |Titel=Performance measures for information extraction |Sammelwerk=Proceedings of DARPA Broadcast News Workshop |Ort=Herndon, VA |Datum=1999-02 |Seiten=249-252 }}
* R. Baeza-Yates und B. Ribeiro-Neto: ''Modern Information Retrieval''. New York 1999, ACM Press, Addison-Wesley, ISBN 0-201-39829-X, Seiten 75 ff.
* Christa Womser-Hacker: ''Theorie des Information Retrieval III: Evaluierung.'' In R. Kuhlen: ''Grundlagen der praktischen Information und Dokumentation.'' 5. Auflage. Saur, München 2004, Seiten 227–235. ISBN 3-598-11675-6, ISBN 3-598-11674-8
* C. V. van Rijsbergen: ''Information Retrieval.'' 2nd Edition. Butterworth, London / Boston 1979, ISBN 0-408-70929-4.
* Jesse Davis und Mark Goadrich: ''The Relationship Between Precision-Recall and ROC Curves''. In: ''23rd International Conference on Machine Learning (ICML)'', 2006. {{DOI|10.1145/1143844.1143874}}


== Weblinks ==
* {{Webarchiv |url=https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Infografik_Antigentest_PDF.pdf?__blob=publicationFile |text=Corona-Schnelltest-Ergebnisse verstehen. Infografik des Robert Koch-Institut mit Vergleich von hohen und niedrigen Inzidenzen. |wayback=20201118210452 }}
* [https://www.spiegel.de/gesundheit/diagnose/viele-aerzte-verstehen-statistiken-zu-diagnosen-nicht-a-844210.html Anschauliche Beschreibung der Problematik von Fehlschlüssen]


== Einzelnachweise ==
[[en:Binary classification]]
<references />


[[Kategorie:Statistik]]
[[Kategorie:Klassifizierung]]
[[Kategorie:Fehlermanagement]]
[[Kategorie:Multivariate Statistik]]
[[Kategorie:Künstliche Intelligenz]]
[[Kategorie:Künstliche Intelligenz]]
[[Kategorie:Klassifikation]]
[[Kategorie:Medizinstatistik]]
[[Kategorie:Medizinstatistik]]
[[Kategorie:Six Sigma]]
[[Kategorie:Dokumentation]]
[[Kategorie:Informetrie]]
[[Kategorie:Information Retrieval]]
[[Kategorie:Psychologische Diagnostik]]

Aktuelle Version vom 14. April 2025, 13:17 Uhr

Bei einer Klassifizierung werden Objekte anhand von bestimmten Merkmalen durch einen Klassifikator in verschiedene Klassen eingeordnet. Der Klassifikator macht dabei im Allgemeinen Fehler, ordnet also in manchen Fällen ein Objekt einer falschen Klasse zu. Aus der relativen Häufigkeit dieser Fehler lassen sich quantitative Maße zur Beurteilung eines Klassifikators ableiten.

Häufig ist die Klassifikation binärer Natur, d. h., es gibt nur zwei mögliche Klassen. Die hier diskutierten Gütemaße beziehen sich ausschließlich auf diesen Fall. Solche binären Klassifikationen werden häufig in Form einer Ja/Nein-Frage formuliert: Leidet ein Patient an einer bestimmten Krankheit oder nicht? Ist ein Feuer ausgebrochen oder nicht? Nähert sich ein feindliches Flugzeug oder nicht? Bei Klassifikationen dieser Art gibt es zwei mögliche Arten von Fehlern: Ein Objekt wird der ersten Klasse zugeordnet, obwohl es der zweiten angehört, oder umgekehrt. Die hier beschriebenen Kennzahlen bieten dann eine Möglichkeit, die Zuverlässigkeit des zugehörigen Klassifikators (Diagnoseverfahren, Brandmelder, Fliegerradar) zu beurteilen.

Ja-Nein-Klassifikationen weisen Ähnlichkeiten zu statistischen Tests auf, bei denen zwischen einer Nullhypothese und einer Alternativhypothese entschieden wird.

Als Alternative zu den unten aufgeführten Klassifikationsmetriken, welche auf der Dichotomisierung der vorhergesagten Wahrscheinlichkeiten beruhen, können Scoring rules zur Bewertung eines Klassifikators herangezogen werden. Diese haben den Vorteil, dass die Wahrscheinlichkeitskalibrierung bewertet wird. Eine künstliche Dichotomisierung der Wahrscheinlichkeiten um Vorhersagen über Klassen zu erhalten, kann zu Verlust an Aussagekraft führen.[1]

Wahrheitsmatrix: Richtige und falsche Klassifikationen

[Bearbeiten | Quelltext bearbeiten]
Ein Test soll kranke und gesunde Menschen voneinander unterscheiden. Jeder Mensch wird durch einen Punkt dargestellt, der links (krank) bzw. rechts (gesund) der schwarzen Linie liegt. Alle hier durch Punkte repräsentierte Menschen wurden getestet.
Die Punkte im Oval sind die von dem Test als krank klassifizierten Menschen. Richtig bewertete Fälle sind grün oder gelb, falsch bewertete rot oder grau unterlegt.

Um einen Klassifikator zu bewerten, muss man ihn in einer Reihe von Fällen anwenden, bei denen man zumindest im Nachhinein Kenntnis über die „wahre“ Klasse der jeweiligen Objekte hat. Ein Beispiel für so einen Fall ist ein medizinischer Labortest, mit dem festgestellt werden soll, ob eine Person eine bestimmte Krankheit hat. Später wird durch aufwändigere Untersuchungen festgestellt, ob die Person tatsächlich an dieser Krankheit leidet. Der Test stellt einen Klassifikator dar, der die Personen in die Kategorien „krank“ und „gesund“ einordnet. Da es sich um eine Ja/Nein-Frage handelt, sagt man auch, der Test fällt positiv (Einordnung „krank“) oder negativ (Einordnung „gesund“) aus. Um zu beurteilen, wie gut geeignet der Labortest für die Diagnose der Krankheit ist, wird nun bei jedem Patienten dessen tatsächlicher Gesundheitszustand mit dem Ergebnis des Tests verglichen. Dabei können vier mögliche Fälle auftreten:

  1. Richtig positiv: Der Patient ist krank, und der Test hat dies richtig angezeigt.
  2. Falsch negativ: Der Patient ist krank, aber der Test hat ihn fälschlicherweise als gesund eingestuft.
  3. Falsch positiv: Der Patient ist gesund, aber der Test hat ihn fälschlicherweise als krank eingestuft.
  4. Richtig negativ: Der Patient ist gesund, und der Test hat dies richtig angezeigt.

Im ersten und letzten Fall war die Diagnose also richtig, in den anderen beiden Fällen liegt ein Fehler vor. Die vier Fälle werden in verschiedenen Kontexten auch anders benannt. So sind auch die englischen Begriffe true positive, false positive, false negative und true negative gebräuchlich. Im Rahmen der Signalentdeckungstheorie werden richtig positive Fälle auch als hit, falsch negative Fälle als miss und richtig negative Fälle als correct rejection bezeichnet.

Es wird nun gezählt, wie häufig jede der vier möglichen Kombinationen von Testergebnis (ermittelte Klasse) und Gesundheitszustand (tatsächliche Klasse) vorgekommen ist. Diese Häufigkeiten werden in eine sogenannte Wahrheitsmatrix (auch Konfusionsmatrix genannt) eingetragen:

Wahrheitsmatrix (Konfusionsmatrix)
Person ist krank
()
Person ist gesund
()
Test positiv
()
richtig positiv () falsch positiv () ∑: 100 % der positiven Tests
Test negativ
()
falsch negativ () richtig negativ () ∑: 100 % der negativen Tests
∑: 100 % der kranken Personen ∑: 100 % der gesunden Personen

Anmerkungen: steht für „falsch“ (genauer: für die Anzahl an falschen Einstufungen); steht für „richtig“ (genauer: für die Anzahl an richtigen Einstufungen); der Index steht für „positiv“; der Index steht für „negativ“. Also: steht für „richtig positiv“ (genauer: für die Anzahl an richtigerweise als positiv Eingestuften) usw.

Diese Matrix ist ein einfacher Spezialfall einer Kontingenztafel mit zwei binären nominalen Variablen – dem Urteil des Klassifikators und der tatsächlichen Klasse. Sie kann auch für Klassifikationen mit mehr als zwei Klassen eingesetzt werden, dann wird bei Klassen aus einer 2×2-Matrix eine -Matrix.

Statistische Gütekriterien der Klassifikation

[Bearbeiten | Quelltext bearbeiten]

Durch Berechnung verschiedener relativer Häufigkeiten können aus den Werten der Wahrheitsmatrix nun Kenngrößen zur Beurteilung des Klassifikators berechnet werden. Diese können auch als Schätzungen der bedingten Wahrscheinlichkeit für das Eintreten des entsprechenden Ereignisses interpretiert werden. Die Maße unterscheiden sich hinsichtlich der Grundgesamtheit, auf die sich die relativen Häufigkeiten beziehen: So können etwa nur all die Fälle in Betracht gezogen werden, in denen die positive bzw. negative Kategorie tatsächlich vorliegt, oder man betrachtet die Menge aller Objekte, die als positiv bzw. negativ klassifiziert werden (Summe über die Einträge einer Zeile der Wahrheitsmatrix). Diese Wahl hat gravierende Auswirkungen auf die berechneten Werte, insbesondere dann, wenn eine der beiden Klassen insgesamt viel häufiger vorkommt als die andere.

Sensitivität und Falsch-negativ-Rate

[Bearbeiten | Quelltext bearbeiten]
Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Sensitivität eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.

Die Sensitivität (auch Richtig-positiv-Rate, Empfindlichkeit oder Trefferquote; englisch sensitivity, true positive rate, recall oder hit rate) gibt die Wahrscheinlichkeit an, mit der ein positives Objekt korrekt als positiv klassifiziert wird. Beispielsweise entspricht die Sensitivität bei einer medizinischen Diagnose dem Anteil an tatsächlich Kranken, bei denen die Krankheit auch erkannt wurde. Die Sensitivität eines Tests gibt an, mit welcher Wahrscheinlichkeit ein Infizierter auch tatsächlich erkannt wurde. Beispielsweise bedeutet eine Sensitivität eines Tests auf ein Virus von 98 %, dass (bei ausreichend großer Anzahl an durchgeführten Tests und unabhängig von den Testvorbedingungen) 98 % der Infizierten erkannt und 2 % der Infizierten nicht erkannt würden. 2 % (der Infizierten, welche getestet wurden, und nicht aller Getesteten) wären dann also falsch negativ.

Die Sensitivität entspricht der geschätzten bedingten Wahrscheinlichkeit

.

Im Kontext des statistischen Hypothesentests wird die Sensitivität des Tests als Trennschärfe des Tests bezeichnet, obwohl der Begriff Trennschärfe in diesem Kontext eine allgemeinere Verwendung hat, die im vorliegenden Kontext nicht anwendbar ist.

Falsch-negativ-Rate

[Bearbeiten | Quelltext bearbeiten]
Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Falsch-negativ-Rate eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.

Entsprechend gibt die Falsch-negativ-Rate (englisch false negative rate oder miss rate) den Anteil der fälschlich als negativ klassifizierten Objekte an der Gesamtheit der positiven Objekte an. Also im Beispiel die tatsächlich Kranken, die aber als gesund diagnostiziert werden.

Die Falsch-negativ-Rate entspricht der geschätzten bedingten Wahrscheinlichkeit

.

Da sich beide Maße auf den Fall beziehen, dass in Wirklichkeit die positive Kategorie vorliegt (erste Spalte der Wahrheitsmatrix), addieren sich die Sensitivität und die Falsch-negativ-Rate zu 1 bzw. 100 %.

Spezifität und Falsch-positiv-Rate

[Bearbeiten | Quelltext bearbeiten]
Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Spezifität eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.

Die Spezifität (auch Richtig-negativ-Rate oder kennzeichnende Eigenschaft; englisch: specificity, true negative rate oder correct rejection rate) gibt die Wahrscheinlichkeit an, mit der ein negatives Objekt korrekt als negativ klassifiziert wird. Beispielsweise entspricht die Spezifität bei einer medizinischen Diagnose dem Anteil an Gesunden, bei denen auch festgestellt wurde, dass keine Krankheit vorliegt. Die Spezifität eines Tests gibt an, mit welcher Wahrscheinlichkeit ein Nicht-Infizierter auch tatsächlich erkannt würde. Beispielsweise bedeutet eine Spezifität eines Tests auf ein Virus von 98 %, dass (bei ausreichend großer Anzahl an durchgeführten Tests und unabhängig von den Testvorbedingungen) 98 % der Nicht-Infizierten tatsächlich erkannt und 2 % der Nicht-Infizierten fälschlich als infiziert ausgewiesen würden. 2 % (der getesteten Nicht-Infizierten, nicht der Getesteten insgesamt) wären dann also falsch positiv.

Die Spezifität entspricht der geschätzten bedingten Wahrscheinlichkeit

.

Falsch-positiv-Rate

[Bearbeiten | Quelltext bearbeiten]
Der Bereich mit Kreisen anstelle von Punkten repräsentiert die Falsch-positiv-Rate eines Tests. Links vom schwarzen Strich sind die kranken, rechts die gesunden Menschen abgebildet. Die Punkte im Oval repräsentieren die vom Test als krank eingestuften Personen.

Entsprechend gibt die Falsch-positiv-Rate (auch Ausfallrate; englisch fallout oder false positive rate) den Anteil der fälschlich als positiv klassifizierten Objekte an, die in Wirklichkeit negativ sind. Im Beispiel würde dann ein tatsächlich Gesunder zu Unrecht als krank diagnostiziert. Es wird also die Wahrscheinlichkeit für einen Fehlalarm angegeben.

Die Falsch-positiv-Rate entspricht der geschätzten bedingten Wahrscheinlichkeit

.

Da sich beide Maße auf den Fall beziehen, dass in Wirklichkeit die negative Kategorie vorliegt (zweite Spalte der Wahrheitsmatrix), addieren sich die Spezifität und die Falsch-positiv-Rate zu 1 bzw. 100 %.

Positiver und negativer Vorhersagewert

[Bearbeiten | Quelltext bearbeiten]

Während Sensitivität und Spezifität eines medizinischen Tests epidemiologisch und gesundheitspolitisch relevante Kenngrößen sind (beispielsweise bei der Frage, ob ein Einsatz im Screening zur Früherkennung von Krankheiten sinnvoll ist), ist im konkreten Fall für Patient und Arzt der Vorhersagewert entscheidend. Nur er beantwortet einem positiv/negativ Getesteten die Frage, mit welcher Wahrscheinlichkeit er denn nun wirklich krank/gesund ist.

Positiver Vorhersagewert

[Bearbeiten | Quelltext bearbeiten]
Positiver Vorhersagewert

Der positive Vorhersagewert (auch Relevanz, Wirksamkeit, Genauigkeit, positiver prädiktiver Wert; englisch: precision oder positive predictive value; Abkürzung: PPV) gibt den Anteil der korrekt als positiv klassifizierten Ergebnisse an der Gesamtheit der als positiv klassifizierten Ergebnisse an (erste Zeile der Wahrheitsmatrix). Beispielsweise gibt der positive Vorhersagewert eines medizinischen Tests an, welcher Anteil der Personen mit positivem Testergebnis auch tatsächlich krank ist.

Der positive Vorhersagewert entspricht der geschätzten bedingten Wahrscheinlichkeit

.

Komplement des positiven Vorhersagewerts ist die als bedingte Wahrscheinlichkeit wie folgt zu formulierende Falscherkennungsrate (englisch: false discovery rate; Abkürzung: FDR):

.

Negativer Vorhersagewert

[Bearbeiten | Quelltext bearbeiten]
Negativer Vorhersagewert

Entsprechend gibt der negative Vorhersagewert (auch Segreganz oder Trennfähigkeit; englisch: negative predictive value; Abkürzung: NPV) den Anteil der korrekt als negativ klassifizierten Ergebnisse an der Gesamtheit der als negativ klassifizierten Ergebnisse an (zweite Zeile der Wahrheitsmatrix). Im Beispiel entspricht das dem Anteil der Personen mit negativem Testergebnis, der auch tatsächlich gesund ist.

Der negative Vorhersagewert entspricht der geschätzten bedingten Wahrscheinlichkeit

Komplement des negativen Vorhersagewerts ist die als bedingte Wahrscheinlichkeit wie folgt zu formulierende Falschauslassungsrate (englisch: false omission rate; Abkürzung: FOR):

.

Anders als die anderen Paare von Gütemaßen addieren sich der negative und der positive Vorhersagewert nicht zu 1 bzw. 100 %, da jeweils von unterschiedlichen Fällen ausgegangen wird (tatsächlich positiv bzw. tatsächlich negativ, d. h. unterschiedliche Spalten der Wahrheitsmatrix). Die Vorhersagewerte können aus Sensitivität und Spezifität berechnet werden, dazu muss aber die Prätestwahrscheinlichkeit (entspricht bei Krankheiten der Prävalenz in der untersuchten Population) bekannt sein oder geschätzt werden. Der positive Vorhersagewert profitiert von einer hohen Prätestwahrscheinlichkeit, der negative Vorhersagewert von einer niedrigen Prätestwahrscheinlichkeit. Ein positives medizinisches Testergebnis hat also eine viel höhere Aussagekraft, wenn der Test auf Verdacht durchgeführt wurde, als wenn er allein dem Screening diente.

Vierfeldertafel mit relativen Häufigkeiten und Berechnung der Vorhersagewerte
krank gesund Summe Vorhersagewert
positiv
negativ
Summe

Die für ein Kollektiv ermittelten positiven und negativen Vorhersagewerte sind auf andere Kollektive nur dann übertragbar, wenn die relative Häufigkeit der positiven Fälle dort dieselbe ist. Beispiel: Wurden zur Bestimmung des positiven Vorhersagewerts 100 HIV-Patienten und 100 gesunde Kontrollpatienten untersucht, so ist der Anteil an HIV-Patienten in dieser Gruppe (50 %) weit von der HIV-Prävalenz in der BRD (0,08 %) entfernt (siehe dazu auch das unten genannte Zahlenbeispiel). Die Vorhersagewerte wären also völlig andere, wenn derselbe Test an einem zufällig ausgewählten Menschen durchgeführt wird.

Likelihood-Quotienten

[Bearbeiten | Quelltext bearbeiten]

Einfacher als die Wahrscheinlichkeit des Vorliegens einer Krankheit lässt sich die Chance (Odd) des Vorliegens einer Krankheit berechnen. Ein positives Testergebnis vergrößert die Chance, krank zu sein, um einen Faktor (Odds-Ratio), der als Likelihood-Quotient (LQ) oder Bayes-Faktor bezeichnet und folgendermaßen berechnet wird:[2]

Die Chance , bei positivem Testergebnis tatsächlich krank zu sein, beträgt somit

.

Da kleine Chancen näherungsweise mit Wahrscheinlichkeiten gleichgesetzt werden können, lässt sich der positive Vorhersagewert oft über das Produkt von Prätestwahrscheinlichkeit und Bayes-Faktor abschätzen.

Ein negatives Testergebnis verändert die Chance analog um den Bayes-Faktor

.

Ein weiteres sich aus den beiden obengenannten Kenngrößen ableitendes und damit ebenfalls prävalenzunabhängiges Maß der Leistungsfähigkeit eines Tests ist das sogen. Diagnostische Chancenverhältnis (DOR) (englisch diagnostic odds ratio), das sich wie folgt berechnet:

.


Korrekt- und Falschklassifikationsrate

[Bearbeiten | Quelltext bearbeiten]

Die Korrektklassifikationsrate (auch Vertrauenswahrscheinlichkeit oder Treffergenauigkeit; englisch: accuracy) gibt den Anteil aller Objekte an, die korrekt klassifiziert werden. Der restliche Anteil entspricht der Falschklassifikationsrate (auch Größe des Klassifikationsfehlers). Im Beispiel der Diagnose wäre die Korrektklassifikationsrate der Anteil an richtig positiven und richtig negativen Diagnosen an der Gesamtzahl der Diagnosen, die Falschklassifikationsrate hingegen der Anteil der falsch positiven und falsch negativen Diagnosen.

Korrektklassifikationsrate

[Bearbeiten | Quelltext bearbeiten]
Korrektklassifikationsrate

Die Korrektklassifikationsrate (accuracy) entspricht der geschätzten Wahrscheinlichkeit

.

Falschklassifikationsrate

[Bearbeiten | Quelltext bearbeiten]
Falschklassifikationsrate

Die Falschklassifikationsrate entspricht der geschätzten Wahrscheinlichkeit

.

Die Korrekt- und die Falschklassifikationsrate addieren sich entsprechend zu 1 oder 100 %.

Kombinierte Maße

[Bearbeiten | Quelltext bearbeiten]

Da sich die verschiedenen Gütemaße gegenseitig beeinflussen (siehe Abschnitt Probleme), wurden verschiedene kombinierte Maße vorgeschlagen, die eine Beurteilung der Güte mit einer einzigen Kennzahl erlauben. Die im Folgenden vorgestellten Maße wurden im Kontext des Information Retrieval entwickelt (siehe Anwendung im Information Retrieval).

Precision-Recall Curve, die Farben zeigen die Thresholds an durch die die Precision und Recall-Werte erlangt wurden. Der Punkt mit maximalem F-score ist rot.

Das F-Maß kombiniert Genauigkeit (precision, ) und Trefferquote (recall, ) mittels des gewichteten harmonischen Mittels:

Neben diesem auch als bezeichneten Maß, bei dem Genauigkeit und Trefferquote gleich gewichtet sind, gibt es auch andere Gewichtungen. Der Allgemeinfall ist das Maß (für positive Werte von ):

Beispielsweise gewichtet die Trefferquote viermal so hoch wie die Genauigkeit und die Genauigkeit viermal so hoch wie die Trefferquote.

Effektivitätsmaß

[Bearbeiten | Quelltext bearbeiten]

Das Effektivitätsmaß entspricht ebenfalls dem gewichteten harmonischen Mittel. Es wurde 1979 von Cornelis Joost van Rijsbergen eingeführt. Die Effektivität liegt zwischen 0 (beste Effektivität) und 1 (schlechte Effektivität). Für einen Parameterwert von ist äquivalent zur Trefferquote, für einen Parameterwert von äquivalent zur Genauigkeit.

Funktionsgraphen

[Bearbeiten | Quelltext bearbeiten]
Abgebildet sind zwei Funktionsgraphen: In rot ist der Graph von f1(x)=x/(x+1) und in blau gestrichelt jener von f2(x)=1/(x+1) dargestellt; eine Legende rechts mittig im Bild spiegelt das wider. Die Abszisse ist mit x beschriftet und umfasst das Intervall von 0 bis 12,5 mit Achsen-Beschriftungen in 1er-Schritten. Die Ordinate ist mit P (= bedingte Wahrscheinlichkeit) beschriftet und reicht von 0 bis 1 mit Achsen-Beschriftungen in 0,1er-Schritten. Der Funktionsgraph von f1(x) entspringt im Nullpunkt und nähert sich mit steigendem x asymptotisch P=1, was durch eine grün gestrichelte Gerade und eine entsprechende Beschriftung dargestellt ist. Der Funktionsgraph von f2(x) beginnt für x=0 bei P=1 und nähert sich mit steigendem x asymptotisch P=0, was ebenfalls durch eine grün gestrichelte Gerade und eine entsprechende Beschriftung dargestellt ist. Die beiden Funktionen f1(x) und f2(x) sind zueinander spiegelsymmetrisch bezüglich der Geraden P=0,5, die grün strich-punktiert eingezeichnet ist. Im Hintergrund liegt ein rechtwinkliges blassgraues Linienraster, das das kartesische Koordinatensystem des I. Quadranten zeigt.
Funktionsgraphen von und

Für die sechs Kennzahlen Sensitivität, Falsch-negativ-Rate, Spezifität, Falsch-positiv-Rate, positiver Vorhersagewert und negativer Vorhersagewert lassen sich normierte, zweidimensionale Funktionsgraphen darstellen:

Betrachtet man beispielsweise das Verhältnis von zu und setzt

,

so erhält man für die Sensitivität

und für die Falsch-negativ-Rate

,

wobei die beiden Funktionen und , deren Graphen hier abgebildet sind, definiert sind als:

Diese Vorgangsweise ist nur deshalb möglich, weil die Sensitivität die Eigenschaft besitzt, dass es für ihren Wert nicht auf die beiden konkreten Einzelwerte und ankommt, sondern ausschließlich auf deren Verhältnis (bzw. dessen Kehrwert ). Daher kann die Sensitivität, die – als zweistellige Funktion formuliert – von den zwei Variablen und abhängt, auch als einstellige Funktion in Abhängigkeit von (bzw. ) dargestellt werden, wodurch sich zweidimensionale Funktionsgraphen zeichnen lassen. Dasselbe gilt auch für die Falsch-negativ-Rate.

Für die übrigen vier Kennwerte lässt sich analog vorgehen (wobei zu beachten ist, dass für verschiedene Verhältnisse verwendet werden), wie die folgende tabellarische Zusammenfassung zeigt:

Zusammenfassung
Kennzahl Verhältnis Formel
Sensitivität
Falsch-negativ-Rate
Spezifität
Falsch-positiv-Rate
Positiver Vorhersagewert
Negativer Vorhersagewert

Gegenseitige Beeinflussungen

[Bearbeiten | Quelltext bearbeiten]

Es ist nicht möglich, alle Gütekriterien unabhängig voneinander zu optimieren. Insbesondere sind die Sensitivität und die Spezifität negativ miteinander korreliert. Zur Veranschaulichung dieser Zusammenhänge ist es hilfreich, die Extremfälle zu betrachten:

  • Wenn eine Diagnose fast alle Patienten als krank klassifiziert (liberale Diagnose), ist die Sensitivität maximal, denn es werden die meisten Kranken auch als solche erkannt. Allerdings wird zugleich die Falsch-positiv-Rate maximal, da auch fast alle Gesunden als krank eingestuft werden. Die Diagnose hat also eine sehr geringe Spezifität.
  • Wird hingegen fast niemand als krank eingestuft (konservative Diagnose), ist umgekehrt die Spezifität maximal, allerdings auf Kosten einer geringen Sensitivität.

Wie konservativ oder liberal ein Klassifikator optimalerweise sein sollte, hängt vom konkreten Anwendungsfall ab. Aus diesem leitet sich beispielsweise ab, welche der Fehlklassifikationen die schwererwiegenden Folgen hat. Bei der Diagnose einer schlimmen Krankheit oder sicherheitsrelevanten Anwendungen wie einem Feueralarm ist es wichtig, dass kein Fall unentdeckt bleibt. Bei einer Recherche durch eine Suchmaschine hingegen kann es wichtiger sein, möglichst wenige Resultate zu bekommen, die für die Suche irrelevant sind, also falsch-positive Resultate darstellen. Die Risiken der verschiedenen Fehlklassifikationen lassen sich zur Bewertung eines Klassifikators in einer Kostenmatrix angeben, mit der die Wahrheitsmatrix gewichtet wird. Eine weitere Möglichkeit besteht in der Verwendung kombinierter Maße, bei denen sich eine entsprechende Gewichtung einstellen lässt.

Um die Auswirkungen verschieden konservativer Tests für ein konkretes Anwendungsbeispiel darzustellen, können ROC-Kurven erstellt werden, in denen die Sensitivität für verschiedene Tests gegen die Falsch-positiv-Rate aufgetragen wird. Im Rahmen der Signalentdeckungstheorie spricht man auch von einem verschieden konservativ gesetzten Kriterium.

Seltene Positiv-Fälle

[Bearbeiten | Quelltext bearbeiten]

Darüber hinaus wird auch ein extremes Ungleichgewicht zwischen tatsächlich positiven und negativen Fällen die Kenngrößen verfälschen, wie es etwa bei seltenen Krankheiten der Fall ist. Ist beispielsweise die Anzahl der an einem Test teilnehmenden Kranken erheblich geringer als die der Gesunden, so führt dies im Allgemeinen zu einem geringen Wert im positiven Vorhersagewert (siehe dazu das unten angeführte Zahlenbeispiel). Daher sollte in diesem Fall alternativ zu den Vorhersagewerten der Likelihood-Quotient angegeben werden.

Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte Screening-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch negativer Ergebnisse vorliegt. Die produzierten falsch positiven Testergebnisse werden anschließend durch einen (teureren) Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von HIV sogar gefordert.

Unvollständige Wahrheitsmatrix

[Bearbeiten | Quelltext bearbeiten]

Ein weiteres Problem bei der Beurteilung eines Klassifikators besteht darin, dass häufig nicht die gesamte Wahrheitsmatrix ausgefüllt werden kann. Insbesondere ist oft die Falsch-negativ-Rate nicht bekannt, etwa wenn bei Patienten, die eine negative Diagnose erhalten, keine weiteren Tests durchgeführt werden und eine Krankheit unerkannt bleibt, oder wenn ein eigentlich relevantes Dokument bei einer Recherche nicht gefunden wird, weil es nicht als relevant klassifiziert wurde. In diesem Fall können nur die als positiv klassifizierten Ergebnisse ausgewertet werden, d. h., es kann nur der positive Vorhersagewert berechnet werden (siehe dazu auch das unten angeführte Zahlenbeispiel). Mögliche Lösungen für dieses Problem werden im Abschnitt Anwendung im Information Retrieval besprochen.

Klassifikationsbewertung und statistische Testtheorie

[Bearbeiten | Quelltext bearbeiten]
Binäre Klassifikation Statistischer Test
Ziel Auf Basis einer Stichprobe werden Beobachtungen (Objekte) einer der beiden Klassen zugeordnet. Mittels einer Zufallsstichprobe werden zwei sich ausschließende Hypothesen (Null- und Alternativhypothese) über die Grundgesamtheit geprüft.
Vorgehen Der Klassifikator ist eine aus der Stichprobe geschätzte Regressionsfunktion mit zwei möglichen Ergebniswerten. Der Prüfwert wird mittels einer Teststatistik aus der Zufallsstichprobe berechnet und mit kritischen Werten, die aus der Verteilung der Teststatistik berechnet werden, verglichen.
Ergebnis Für eine Beobachtung wird eine Klassenzugehörigkeit vorhergesagt. Aufgrund des Vergleiches von Prüfwert und kritischen Werten kann die Alternativhypothese angenommen oder verworfen werden.
Fehler Die Qualität eines Klassifikators wird mit der Falschklassifikationsrate (falsch positiv und falsch negativ) im Nachhinein beurteilt. Vor der Testdurchführung wird die Größe des Fehlers 1. Art (fälschlich Annahme der Alternativhypothese) festgelegt. Daraus werden die kritischen Werte berechnet. Der Fehler 2. Art (fälschlich Ablehnung der Alternativhypothese) ist immer unbekannt bei der Testdurchführung.

Klassifikationsbewertung zur Beurteilung der Qualität statistischer Tests

[Bearbeiten | Quelltext bearbeiten]

Mit Hilfe der Klassifikationsbewertung kann die Qualität eines statistischen Tests beurteilt werden:

  • Generiert man viele Stichproben unter Gültigkeit der Nullhypothese, so sollte die Annahmerate der Alternativhypothese dem Fehler 1. Art entsprechen. Aber bei komplizierten Tests kann man oft nur eine obere Grenze für den Fehler 1. Art angeben, sodass der „wahre“ Fehler 1. Art nur mit einer solchen Simulation abgeschätzt werden kann.
  • Generiert man viele Stichproben unter Gültigkeit der Alternativhypothese, so ist die Ablehnungsrate der Alternativhypothese eine Schätzung des Fehlers 2. Art. Dies ist beispielsweise von Interesse, wenn man zwei Tests für einen Sachverhalt hat. Wenn die Alternativhypothese gilt, dann bevorzugt man den Test, der einen kleineren Fehler 2. Art hat.

Statistische Tests zur Beurteilung einer Klassifikation

[Bearbeiten | Quelltext bearbeiten]

Man kann statistische Tests einsetzen, um zu überprüfen, ob eine Klassifikation statistisch signifikant ist, d. h., ob bezüglich der Grundgesamtheit die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist (Nullhypothese) oder ob er signifikant mit ihnen korreliert (Alternativhypothese).

Im Fall von mehreren Klassen kann dafür der Chi-Quadrat-Unabhängigkeitstest verwendet werden. Dabei wird geprüft, ob die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist oder signifikant mit ihnen korreliert. Die Stärke der Korrelation wird durch Kontingenzkoeffizienten abgeschätzt.

Im Fall einer binären Klassifikation wird der Vierfeldertest verwendet, ein Spezialfall des Chi-Quadrat-Unabhängigkeitstests. Hat man nur wenige Beobachtungswerte, sollte der Exakte Fisher-Test verwendet werden. Die Stärke der Korrelation kann mit dem Phi-Koeffizient abgeschätzt werden.

Lehnt der Test die Nullhypothese ab, bedeutet es jedoch nicht, dass der Klassifikator gut ist. Es bedeutet nur, dass er besser ist als (zufälliges) Raten. Ein guter Klassifikator sollte auch eine möglichst hohe Korrelation aufweisen.

In Diettrich (1998) werden fünf Tests untersucht zum direkten Vergleich von Missklassifikationsraten von zwei unterschiedlichen Klassifikatoren:[3]

  • Ein einfacher Zweistichproben-t-Test für unabhängige Stichproben,
  • ein Zweistichproben-t-Test für verbundene Stichproben,
  • ein Zweistichproben-t-Test für verbundene Stichproben mit 10-fach-Kreuzvalidierung,
  • der McNemar-Test und
  • ein Zweistichproben-t-Test für verbundene Stichproben mit 5-fach-Kreuzvalidierung und modifizierter Varianzberechnung (5x2cv).

Als Ergebnis der Untersuchung von Güte und Fehler 1. Art der fünf Tests ergibt sich, dass sich der 5x2cv-Test am besten verhält, jedoch sehr rechenaufwendig ist. Der McNemar-Test ist etwas schlechter als der 5x2cv-Test, jedoch deutlich weniger rechenaufwendig.

Anwendung im Information Retrieval

[Bearbeiten | Quelltext bearbeiten]

Ein spezieller Anwendungsfall der hier beschriebenen Maße ist die Beurteilung der Güte von Treffermengen einer Recherche beim Information Retrieval. Dabei geht es um die Beurteilung, ob ein gefundenes Dokument, etwa beim Webmining durch Suchmaschinen, entsprechend einem definierten Kriterium relevant ist. In diesem Zusammenhang sind die oben definierten Bezeichnungen „Trefferquote“ (englisch recall), „Genauigkeit“ (englisch precision) und „Ausfallquote“ (englisch fallout) gebräuchlich. Die Trefferquote gibt den Anteil der bei einer Suche gefundenen relevanten Dokumente und damit die Vollständigkeit eines Suchergebnisses an. Die Genauigkeit beschreibt mit dem Anteil relevanter Dokumente an der Ergebnismenge die Genauigkeit eines Suchergebnisses. Der (weniger gebräuchliche) Ausfall bezeichnet den Anteil gefundener irrelevanter Dokumente an der Gesamtmenge aller irrelevanten Dokumente, er gibt also in negativer Weise an, wie gut irrelevante Dokumente im Suchergebnis vermieden werden. Statt als Maß können Trefferquote, Genauigkeit und Ausfall auch als Wahrscheinlichkeit interpretiert werden:

  • Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird (Sensitivität).
  • Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist (Positiver Vorhersagewert).
  • Ausfall ist die Wahrscheinlichkeit, mit der ein irrelevantes Dokument gefunden wird (Falsch-positiv-Rate).

Eine gute Recherche sollte möglichst alle relevanten Dokumente finden (richtig positiv) und die nicht relevanten Dokumente nicht finden (richtig negativ). Wie oben beschrieben, hängen die verschiedenen Maße jedoch voneinander ab. Im Allgemeinen sinkt mit steigender Trefferrate die Genauigkeit (mehr irrelevante Ergebnisse). Umgekehrt sinkt mit steigender Genauigkeit (weniger irrelevante Ergebnisse) die Trefferrate (mehr relevante Dokumente, die nicht gefunden werden). Je nach Anwendungsfall sind die unterschiedlichen Maße zur Beurteilung mehr oder weniger relevant. Bei einer Patentrecherche ist es beispielsweise wichtig, dass keine relevanten Patente unentdeckt bleiben – also sollte der Negative Vorhersagewert möglichst hoch sein. Bei anderen Recherchen ist es wichtiger, dass die Treffermenge wenige irrelevante Dokumente enthält, d. h., der Positive Vorhersagewert sollte möglichst hoch sein.

Im Kontext des Information Retrieval wurden auch die oben beschriebenen kombinierten Maße wie der F-Wert und die Effektivität eingeführt.

Genauigkeit-Trefferquote-Diagramm

[Bearbeiten | Quelltext bearbeiten]

Zur Einschätzung eines Retrieval-Verfahrens werden meist Trefferquote und Genauigkeit gemeinsam betrachtet. Dazu werden im sogenannten Precision-Recall-Diagramm (PR-Diagramm) für verschieden große Treffermengen zwischen den beiden Extremen Genauigkeit auf der -Achse und Trefferquote auf der -Achse eingetragen. Dies ist vor allem leicht bei Verfahren möglich, deren Treffermenge durch einen Parameter gesteuert werden kann. Dieses Diagramm erfüllt einen ähnlichen Zweck wie die oben beschriebene ROC-Kurve, die man in diesem Zusammenhang auch als Trefferquote-Fallout-Diagramm bezeichnet.

Der (höchste) Wert im Diagramm, an dem der Precision-Wert gleich dem Treffer-Wert ist – also der Schnittpunkt des Genauigkeit-Trefferquote-Diagramms mit der Identitätsfunktion – wird der Genauigkeit-Trefferquote-Breakeven-Punkt genannt. Da beide Werte voneinander abhängen, wird auch oft der eine bei fixiertem anderem Wert genannt. Eine Interpolation zwischen den Punkten ist allerdings nicht zulässig, es handelt sich um diskrete Punkte, deren Zwischenräume nicht definiert sind.

In einer Datenbank mit 36 Dokumenten sind zu einer Suchanfrage 20 Dokumente relevant und 16 nicht relevant. Eine Suche liefert 12 Dokumente, von denen tatsächlich 8 relevant sind.

Relevant Nicht relevant Summe
Gefunden 08 04 12
Nicht gefunden 12 12 24
Summe 20 16 36

Trefferquote und Genauigkeit für die konkrete Suche ergeben sich aus den Werten der Wahrheitsmatrix.

  • Trefferquote: 8(8+12) = 820 = 25 = 0,4
  • Genauigkeit: 8(8+4) = 812 = 23 ≈ 0,67
  • Fallout: 4(4+12) = 416 = 14 = 0,25

Praxis und Probleme

[Bearbeiten | Quelltext bearbeiten]

Ein Problem bei der Berechnung der Trefferquote ist die Tatsache, dass man nur selten weiß, wie viele relevante Dokumente insgesamt existieren und nicht gefunden wurden (Problem der unvollständigen Wahrheitsmatrix). Bei größeren Datenbanken, bei denen die Berechnung der absoluten Trefferquote besonders schwierig ist, wird deswegen mit der relativen Trefferquote gearbeitet. Dabei wird die gleiche Suche mit mehreren Suchmaschinen durchgeführt, und die jeweils neuen relevanten Treffer werden zu den nicht gefundenen relevanten Dokumenten addiert. Mit der Rückfangmethode kann abgeschätzt werden, wie viele relevante Dokumente insgesamt existieren.

Problematisch ist auch, dass zur Bestimmung von Trefferquote und Genauigkeit die Relevanz eines Dokumentes als Wahrheitswert (ja/nein) bekannt sein muss. In der Praxis ist jedoch oft die Subjektive Relevanz von Bedeutung. Auch für in einer Rangordnung angeordnete Treffermengen ist die Angabe von Trefferquote und Genauigkeit oft nicht ausreichend, da es nicht nur darauf ankommt, ob ein relevantes Dokument gefunden wird, sondern auch, ob es im Vergleich zu nicht relevanten Dokumenten genügend hoch in der Rangfolge eingeordnet wird. Bei sehr unterschiedlich großen Treffermengen kann die Angabe durchschnittlicher Werte für Trefferquote und Genauigkeit irreführend sein.

Das Ziel eines HIV-Tests sollte die möglichst sichere Erkennung eines Infizierten sein. Aber welche Konsequenzen ein falsch positiver Test haben kann, zeigt das Beispiel eines Menschen, der sich auf HIV testen lässt und dann aufgrund eines falsch-positiven Ergebnisses Suizid begeht.

Bei einer angenommenen Genauigkeit von 99,9 % des nicht-kombinierten HIV-Tests sowohl für positive als auch negative Ergebnisse (Sensitivität und Spezifität = 0,999) und der aktuellen Verbreitung von HIV (Stand 2009) in der deutschen Bevölkerung (82.000.000 Einwohner, davon 67.000 HIV-positiv) wäre ein allgemeiner HIV-Test verheerend: bei nicht-kombiniertem HIV-Test würden nämlich von 67.000 tatsächlich Erkrankten lediglich 67 HIV-Infizierte fälschlicherweise nicht erkannt, aber ca. 82.000 Personen würden fälschlicherweise als HIV-positiv diagnostiziert. Von 148.866 positiven Ergebnissen wären etwa 55 % falsch positiv, also mehr als die Hälfte der positiv Getesteten. Somit liegt die Wahrscheinlichkeit, dass jemand, der nur mit dem ELISA-Test positiv getestet würde, auch wirklich HIV-positiv wäre, bei nur 45 % (positiver Vorhersagewert). Dieser angesichts der sehr geringen Fehlerrate von 0,1 % niedrige Wert liegt darin begründet, dass HIV nur bei etwa 0,08 % der Bundesbürger auftritt.

ELISA-Test HIV positiv HIV negativ Summe
HIV-Test positiv 66.933 81.933 148.866
HIV-Test negativ 67 81.851.067 81.851.134
Summe 67.000 81.933.000 82.000.000

Herzinfarkt in den USA

[Bearbeiten | Quelltext bearbeiten]

In den USA werden pro Jahr etwa vier Millionen Frauen und Männer wegen Schmerzen in der Brust unter der Verdachtsdiagnose Herzinfarkt in eine Klinik eingewiesen. Im Verlauf der aufwendigen und teuren Diagnostik stellt sich dann heraus, dass von diesen Patienten nur etwa 32 % tatsächlich einen Infarkt erlitten haben. Bei 68 % war die Diagnose Infarkt nicht korrekt (falsch positive Verdachtsdiagnose). Andererseits werden in jedem Jahr etwa 34.000 Patienten aus dem Krankenhaus entlassen, ohne dass ein tatsächlich vorhandener Herzinfarkt erkannt wurde (ca. 0,8 % falsch negative Diagnose).

Auch in diesem Beispiel ist die Sensitivität der Untersuchung ähnlich hoch, nämlich 99,8 %. Die Spezifität lässt sich nicht ermitteln, weil die falsch-positiven Ergebnisse der Untersuchung nicht bekannt sind. Bekannt sind nur die falsch-positiven Eingangsdiagnosen, die auf der Angabe „Herzschmerz“ fußen. Betrachtet man ausschließlich diese Eingangsdiagnose, dann ist die Angabe der 34.000 Patienten, die fälschlich entlassen werden, wertlos, denn sie haben hiermit nichts zu tun. Man benötigt nämlich die Zahl der Falsch-Negativen, also jener Personen mit Herzinfarkt, die nicht eingewiesen wurden, weil sie keinen Herzschmerz hatten.

Information Retrieval

[Bearbeiten | Quelltext bearbeiten]
  • John Makhoul, Francis Kubala, Richard Schwartz und Ralph Weischedel: Performance measures for information extraction. In: Proceedings of DARPA Broadcast News Workshop. Herndon, VA Februar 1999, S. 249–252 (psu.edu).
  • R. Baeza-Yates und B. Ribeiro-Neto: Modern Information Retrieval. New York 1999, ACM Press, Addison-Wesley, ISBN 0-201-39829-X, Seiten 75 ff.
  • Christa Womser-Hacker: Theorie des Information Retrieval III: Evaluierung. In R. Kuhlen: Grundlagen der praktischen Information und Dokumentation. 5. Auflage. Saur, München 2004, Seiten 227–235. ISBN 3-598-11675-6, ISBN 3-598-11674-8
  • C. V. van Rijsbergen: Information Retrieval. 2nd Edition. Butterworth, London / Boston 1979, ISBN 0-408-70929-4.
  • Jesse Davis und Mark Goadrich: The Relationship Between Precision-Recall and ROC Curves. In: 23rd International Conference on Machine Learning (ICML), 2006. doi:10.1145/1143844.1143874

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. https://www.fharrell.com/post/classification/
  2. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2018, ISBN 978-3-662-56657-2, S. 192
  3. Thomas G. Dietterich: Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms. In: Neural Computation. Band 10, Nr. 7, 1. Oktober 1998, S. 1895–1923, doi:10.1162/089976698300017197.