Beurteilung eines binären Klassifikators
Bei einer Klassifizierung werden Objekts anhand von bestimmten Merkmalen durch einen Klassifikator in verschiedene Klassen eingeordnet. Der Klassifikator macht dabei im Allgemeinen Fehler, ordnet also in manchen Fällen ein Objekt einer falschen Klassen zu. Aus der relativen Häufigkeit dieser Fehler lassen sich quantitative Maße zur Beurteilung eines Klassifikators ableiten.
Häufig ist die Klassifikation binärer Natur, d.h. es gibt nur zwei mögliche Klassen. Die hier diskutieren Gütemaße beziehen sich ausschließlich auf diesen Fall. Solche binäre Klassifikationen werden häufig in Form einer Ja/Nein-Frage formuliert: Leidet ein Patient an einer bestimmten Krankheit oder nicht? Ist ein Feuer ausgebrochen oder nicht? Nährt sich ein feindliches Flugzeug oder nicht? Bei Klassifikationen dieser Art gibt es zwei mögliche Arten von Fehlern: Ein Objekt wird der ersten Klasse zugeordnet, obwohl es der zweiten angehört, oder umgekehrt. Die hier beschriebenen Kennwerte bieten dann eine Möglichkeit, die Zuverlässigkeit des zugehörigen Klassifikators (Diagnoseverfahren, Feuermelder, Fliegerradar) zu beurteilen.
Ja-Nein-Klassifikationen weisen große formale Ähnlichkeiten zu statistischen Tests auf, bei denen zwischen einer Nullhypothese und einer Alternativhypothese entschieden wird. Zwischen den beiden Bereichen bestehen aber gravierende Unterschiede, da bei der Klassifikation die "wahre" Klassenzugehörigkeit der Objekte bekannt ist und so eine Bewertung des Tests an sich möglich ist.
Wahrheitsmatrix: Richtige und falsche Klassifikationen

Um einen Klassifikator zu bewerten, muss man ihn in eine Reihe von Fällen anwenden, bei denen man zumindest im Nachhinein Kenntnis über die "wahre" Klasse der jeweiligen Objekte hat. Ein Beispiel für so einen Fall ist ein medizinischer Labortest, mit dem festgestellt werden soll, ob eine Person eine bestimmte Krankheit hat. Später wird durch aufwändigere Untersuchungen fest gestellt, ob die Person tatsächlich an dieser Krankheit leidet. Der Test stellt einen Klassifikator dar, der die Personen in die Kategorien "krank" und "gesund" einordnet. Da es sich um eine Ja/Nein-Frage handelt, sagt man auch, der Test fällt positiv (Einordnung "krank") oder negativ (Einordnung "gesund") aus. Um zu beurteilen, wie gut geeignet der Labortest für die Diagnose der Krankheit ist, wird nun bei jedem Patient dessen tatsächliche Gesundheitszustand mit dem Ergebnis des Tests verglichen. Dabei können vier mögliche Fälle auftreten:
- Richtig positiv: Der Patient ist krank, und der Test hat dies richtig angezeigt.
- Falsch negativ: Der Patient ist krank, aber der Test hat ihn fälschlicherweise als gesund eingestuft.
- Falsch positiv: Der Patient ist gesund, aber der Test hat ihn fälschlicherweise als krank eingestuft.
- Richtig negativ: Der Patient ist gesund, und der Test hat dies richtig angezeigt.
Im ersten und letzten Fall war die Diagnose also richtig, in den anderen beiden Fällen liegt ein Fehler vor. Die vier Fälle werden in verschiedenen Kontexten auch anders benannt. So sind auch die englischen Begriffe true positive, false positive, false negative und true negative gebräuchlich. Im Rahmen der Signalentdeckungstheorie werden richtig positive Fälle auch als hit, falsch negative Fälle als miss und richtig negative Fälle als correct rejection bezeichnet.
Es wird gezählt nun gezählt, wie häufig jede der vier möglichen Kombinationen von Testergebnis (ermittelte Klasse) und Gesundheitszustand (tatsächliche Klasse) vorgekommen ist. Diese Häufigkeiten werden in eine sogenannte Wahrheitsmatrix (auch Konfusionsmatrix genannt) eingetragen:
Person ist krank (a+c) | Person ist gesund (b+d) | |
---|---|---|
Test positiv (a+b) | richtig positiv (a) | falsch positiv (b) |
Test negativ (c+d) | falsch negativ (c) | richtig negativ (d) |
Diese Matrix ist ein einfacher Spezialfall einer Kontingenztafel mit zwei nominalen Variablen - dem Urteil des Klassifikators und der tatsächlichen Klasse. Sie kann auch für Klassifikationen mit mehr als zwei Klassen eingesetzt werden, dann wird bei N Klassen aus einer 2x2-Matrix eine NxN-Matrix.
Aufgrund dieser Matrix kann man nun verschiedene Kenngrößen der Klassifizierung errechnen, die ihrerseits eine Gütebeschreibung des verwendeten Klassifikators (des verwendeten medizinischen Tests) gestatten:
- Die Sensitivität (Richtig-Positiv-Rate) a/(a+c) ist die Wahrscheinlichkeit, dass eine vorhandene Krankheit auch erkannt wird.
- Die Spezifität (Richtig-Negativ-Rate) d/(b+d) ist die Wahrscheinlichkeit, dass es bei einem gesunden Menschen keinen Falschalarm gibt.
- Die Falsch-Positiv-Rate b/(b+d) ist die Wahrscheinlichkeit, dass bei einer gesunden Person trotzdem eine Krankheit (positive Diagnose) erkannt wird (Falschalarm).
- Die Falsch-Negativ-Rate c/(a+c) ist die Wahrscheinlichkeit, dass bei einer kranken Person trotzdem keine Krankheit (negative Diagnose) erkannt wird.
- Die Relevanz (Positiver Vorhersagewert) a/(a+b) ist die Wahrscheinlichkeit, dass die Person bei einer positiven Diagnose auch wirklich krank ist.
- Die Segreganz (Negativer Vorhersagewert) d/(c+d) ist die Wahrscheinlichkeit, dass die Person, wenn keine Krankheit erkannt wurde, auch wirklich gesund ist.
- Die Korrektklassifikationsrate (a+d)/(a+b+c+d) ist die Wahrscheinlichkeit für eine richtige Diagnose.
- Die Falschklassifikationsrate (b+c)/(a+b+c+d) ist die Wahrscheinlichkeit für eine falsche Diagnose.
Die Raten 1. und 4., 2. und 3. sowie 7. und 8. addieren sich zu jeweils 100%.
Probleme
Gegenseitige Beeinflussungen
Es ist nicht möglich, alle Gütekriterien unabhängig voneinander zu optimieren. Insbesondere sind die Sensitivität und die Spezifität negativ miteinander korreliert. Zur Veranschaulichung dieser Zusammenhänge ist es hilfreich, die Extremfälle zu betrachten:
- Wenn eine Diagnose fast alle Patienten als krank klassifiziert (liberale Diagnose), ist die Sensitivität maximal, denn es werden die meisten Kranken auch als solche erkannt. Allerdings wird gleichzeitig auch die Falsch-Positiv-Rate maximal, da auch fast alle Gesunden als krank eingestuft werden. Die Diagnose hat also eine sehr geringe Spezifität.
- Wird hingegen fast niemand als krank eingestuft (konservative Diagnose), ist umgekehrt die Spezifität maximal, allerdings auf Kosten einer geringen Sensitivität.
Wie konservativ oder liberal ein Klassifikator optimalerweise sein sollte, hängt vom konkreten Anwendungsfall ab, insbesondere davon, welche der Fehlklassifikation die schwerwiegenderen Folgen hat. Bei der Diagnose einer schlimmen Krankheit oder sicherheitsrelevanten Anwendungen wie einem Feueralarm ist es beispielsweise wichtig, dass kein Fall unentdeckt bleibt. Bei einer Recherche durch eine Suchmaschine hingegen kann es wichtiger sein, möglichst wenige Resultate zu bekommen, die für die Suche irrelevant sind, also falsch positive Resultate darstellen. Die Risiken der verschiedenen Fehlklassifikationen lassen sich zur Bewertung eines Klassifikators in einer Kostenmatrix angeben, mit der die Wahrheitsmatrix gewichtet wird. Eine weitere Möglichkeit besteht in der Verwendung kombinierter Maße, bei denen sich eine entsprechende Gewichtung einstellen läßt.
Um die Auswirkungen verschieden konservativer Tests für ein konkretes Anwendungsbeispiel darzustellen, können sogenannte Receiver Operating Characteristic- oder ROC-Kurven erstellt werden, in denen die Sensitivität für verschiedene Tests gegen die Falsch-Positiv-Rate aufgetragen wird. Im Rahmen der Signalentdeckungstheorie spricht man auch von einem verschieden konservativ gesetzten Kriterium.
Seltene Positiv-Fälle
Darüber hinaus wird auch ein extremes Ungleichgewicht zwischen tatsächlich positiv und negativen Fällen die Kenngrößen verfälschen, wie es etwa bei seltenen Krankheiten der Fall ist. Ist beispielsweise die Anzahl der an einem Test teilnehmenden Kranken erheblich geringer als die der Gesunden, so führt dies im allgemeinen zu einem geringen Wert im positiven Vorhersagewert (siehe dazu das unten angeführte Zahlenbeispiel). Daher sollte in diesem Fall alternativ zu den Vorhersagewerten die likelihood ratio angegeben werden.
Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte Screening-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch negativer Ergebnisse vorliegt. Die produzierten falsch positiven Testergebnisse werden anschließend durch einen (teureren) Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von HIV sogar gefordert.
Unvollständige Wahrheitsmatrix
Ein weiteres Problem bei der Beurteilung eines Klassifikators besteht darin, dass häufig nicht die gesamte Wahrheitsmatrix ausgefüllt werden kann. Insbesondere ist oft die Falsch-Negativ-Rate nicht bekannt, etwa wenn bei Patienten, die eine negative Diagnose erhalten, keine weiteren Tests durchgeführt werden und eine Krankheit unerkannt bleibt, oder wenn ein eigentlich relevantes Dokument bei einer Recherche nicht gefunden wird, weil es nicht als relevant klassifiziert wurde. In diesem Fall können nur die als positiv klassifizierten Ergebnisse ausgewertet werden, d.h. es kann nur der positive Vorhersagewert berechnet werden (siehe dazu auch das unten angeführte Zahlenbeispiel). Mögliche Lösungen für dieses Problem werden im Abschnitt Anwendung im Information Retrieval besprochen.
Verhältnis der Klassifikationsbewertung zur statistischen Testtheorie
Ähnlichkeiten und Unterschiede zwischen Klassifikationsbewertung und statistischen Tests
Statistische Tests sind konzeptionell genau gleich aufgebaut wie eine binäre Klassifikation: Ein Objekt wird entweder entweder der Nullhypothese und der Alternativhypothese zugeordnet, was der negativen und positiven Klassifizierung entspricht. Der Klassifikator nimmt die Form einer Teststatistik an, die aufgrund ihrer Konstruktion einer bestimmten Wahrscheinlichkeitsverteilung folgt. Und schließlich treten Fehler der ersten Art und der zweiten Art auf, wobei die erste Art einem falsch positiven und die zweite Art einem falsch negativen Urteil entspricht.
Trotz dieser formalen Ähnlichkeiten bestehen dennoch erhebliche Unterschiede zwischen der Beurteilung einer Klassifikation und einem statistischen Test. Beim Klassifizieren ist die "Wahrheit" zumindest im Nachhinein bekannt, es geht also darum, die Güte des Tests aufgrund der Daten zu beurteilen. Bei einem statistischen Test hingegen sind ist wahre Klassen nicht bekannt, es geht darum, mit Hilfe eines Tests Aussagen über unbekannte Daten zu machen. Insbesondere interessiert man sich nicht explizit für die einzelnen Raten, es gibt nur eine Ja/Nein-Entscheidung aufgrund des Tests. Vereinfacht gesagt geht es also beim Klassifizieren um die Beurteilung des Tests und beim statistischen Testen um die Beurteilung der Daten.
Klassifikationsbewertung zur Beurteilung der Güte statistischer Tests
Im Prinzip kann natürlich kann auch die Güte eines statistischen Tests mithilfe der hier eingeführten Maße beurteilt werden. Das geht aber nur dann, wenn die Klassifikationen der Daten (also die jeweiligen Wahrscheinlichkeiten) bekannt sind, etwa einem künstlich generierten Testdatensatz mit bekannter Verteilung.
Statistische Tests zur Beurteilung einer Klassifikation
Man kann statistische Tests einsetzen, um zu überprüfen, ob eine Klassifikation statistisch signifikant ist, d.h. ob bzgl. der Grundgesamtheit die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist (Nullhypothese) oder signifikant mit ihnen korreliert (Alternativhypothese).
Im Fall von mehreren Klassen kann dafür der Chi-Quadrat-Unabhängigkeitstest verwendet werden. Dabei wird geprüft, ob die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist oder signifikant mit ihnen korreliert. Die Stärke der Korrelation wird durch Kontingenzkoeffizienten abgeschätzt.
Im Fall einer binären Klassifikation wird der Vierfeldertest verwendet, ein Spezialfall des Chi-Quadrat-Unabhängigkeitstests. Hat man nur wenige Beobachtungswerte sollte der Exakte Fisher-Test verwendet werden. Die Stärke der Korrelation kann mit dem Phi-Koeffizient abgeschätzt werden.
Lehnt der Test die Nullhypothese ab, bedeutet es jedoch nicht, dass der Klassifikator gut ist. Es bedeutet nur, dass er besser ist als (zufälliges) Raten. Ein guter Klassifikator sollte auch eine möglichst hohe Korrelation aufweisen.
Anwendung im Information Retrieval
Ein spezieller Anwendungsfall der hier beschriebenen Maße ist die Beurteilung der Güte von Treffermengen einer Recherche beim Information Retrieval. Dabei geht es um die Beurteilung, ob ein gefundenes Dokument, etwa beim Webmining durch Suchmaschinen, entsprechend eines definierten Kriteriums relevant ist. In diesem Zusammenhang sind die Bezeichnungen Trefferquote (engl. Recall), Genauigkeit (engl. Precision) und Ausfallquote (engl. Fallout) gebräuchlich. Die Trefferquote gibt den Anteil der bei einer Suche gefundenen relevanten Dokumente, und damit die Vollständigkeit eines Suchergebnisses an. Die Genauigkeit beschreibt mit dem Anteil relevanter Dokumente an der Ergebnismenge die Genauigkeit eines Suchergebnisses. Der (seltener gebräuchliche) Ausfall bezeichnet den Anteil gefundener irrelevanter Dokumente an der Gesamtmenge aller irrelevanten Dokumente, er gibt also in negativer Weise an, wie gut irrelevante Dokumente im Suchergebnis vermieden werden. Statt als Maß können Trefferquote, Genauigkeit und Ausfall auch als Wahrscheinlichkeit interpretiert werden:
- Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird (Sensitivität).
- Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist (Positiver Vorhersagewert).
- Ausfall ist die Wahrscheinlichkeit, mit der ein irrelevantes Dokument gefunden wird (Falsch-Positiv-Rate).
Eine gute Recherche sollte möglichst alle relevanten Dokumente finden (richtig positiv) und die nicht relevanten Dokumente nicht finden (richtig negativ). Wie oben beschrieben, hängen die verschiedenen Maße hängen jedoch voneinander ab. Im Allgemeinen sinkt mit steigender Trefferrate die Genauigkeit (mehr irrelevante Ergebnisse). Umgekehrt sinkt mit steigender Genauigkeit (weniger irrelevante Ergebnisse) die Trefferrate (mehr relevante Dokumente die nicht gefunden werden). Je nach Anwendungsfall sind die unterschiedlichen Maße zur Beurteilung mehr oder weniger relevant. Bei einer Patentrecherche ist es beispielsweise wichtig, dass keine relevanten Patente unentdeckt bleiben, also sollte der Negative Vorhersagewert möglichst hoch sein. Bei anderen Recherchen ist es wichtiger, dass die Treffermenge wenig irrelevante Dokumente enthält, d.h. der Positive Vorhersagewert sollte möglichst hoch sein.
Genauigkeit-Trefferquote-Diagramm
Zur Einschätzung eines Retrieval-Verfahrens werden meist Trefferquote und Genauigkeit gemeinsam betrachtet. Dazu werden im so genannten Precision-Trefferquote-Diagramm (PR-Diagramm) für verschieden große Treffermengen zwischen den beiden Extremen Genauigkeit auf der Ordinate und Trefferquote auf der Abszisse eingetragen. Dies ist vor allem leicht bei Verfahren möglich, deren Treffermenge durch einen Parameter gesteuert werden kann. Dieses Diagramm erfüllt einen ähnlichen Zweck wie die oben beschriebene ROC-Kurve, die man in diesem Zusammenhang auch als Trefferquote-Fallout-Diagramm bezeichnet.
Der (höchste) Wert im Diagramm, an dem der Precision-Wert gleich dem Treffer-Wert ist – also der Schnittpunkt des Genauigkeit-Trefferquote-Diagramms mit der Identitätsfunktion – wird der Genauigkeit-Trefferquote-Breakeven-Punkt genannt. Da beide Werte voneinander abhängen, wird auch oft der eine bei fixiertem anderen Wert genannt. Eine Interpolation zwischen den Punkten ist allerdings nicht zulässig, es handelt sich um diskrete Punkte, deren Zwischenräume nicht definiert sind.
Beispiel
In einer Datenbank mit 36 Dokumenten sind zu einer Suchanfrage Dokumente 20 relevant und 16 nicht relevant. Eine Suche liefert 12 Dokumente, von denen tatsächlich 8 relevant sind.
Relevant | Nicht relevant | |
---|---|---|
Gefunden | 8 | 4 |
Nicht gefunden | 12 | 12 |
Trefferquote und Precision für die konkrete Suche ergeben sich aus den Werten der Konfusionsmatrix.
- Genauigkeit:
- Trefferquote:
- Fallout:
Praxis und Probleme
Ein Problem bei der Berechnung der Trefferquote ist die Tatsache, dass man nur selten weiß, wie viele relevante Dokumente insgesamt existieren und nicht gefunden wurden (Problem der unvollständigen Wahrheitsmatrix). Bei größeren Datenbanken, bei denen die Berechnung der absoluten Trefferquote besonders schwierig ist, wird deswegen mit der relativen Trefferquote gearbeitet. Dabei wird die gleiche Suche mit mehreren Suchmaschinen durchgeführt und die jeweils neuen relevanten Treffer zu den nicht gefundenen relevanten Dokumenten hinzu addiert. Mit der Rückfangmethode kann abgeschätzt werden, wie viele relevante Dokumente insgesamt existieren.
Problematisch ist auch, dass zur Bestimmung von Trefferquote und Genauigkeit die Relevanz eines Dokumentes als Wahrheitswert (ja/nein) bekannt sein muss. In der Praxis ist jedoch oft die Subjektive Relevanz von Bedeutung. Auch für gerankte Treffermengen ist die Angabe von Trefferquote und Precision oft nicht ausreichend, da es nicht nur darauf ankommt, ob ein relevantes Dokument gefunden wird, sondern auch ob es im Vergleich zu nicht relevanten Dokumenten genügend hoch gerankt wird. Bei sehr unterschiedlich großen Treffermengen kann die Angabe durchschnittlicher Werte für Trefferquote und Genauigkeit irreführend sein.
Weitere Anwendungsbeispiele
HIV in der BRD
Das Ziel eines HIV-Tests sollte die möglichst sichere Erkennung eines Infizierten sein. Aber welche Konsequenzen ein falsch positiver Test haben kann, zeigt das Beispiel eines Menschen, der sich auf HIV testen lässt und dann aufgrund eines falsch-positiven Ergebnisses Suizid begeht.
Bei einer angenommenen Genauigkeit von 99,9 % des kombinierten HIV-Tests sowohl für positive als auch negative Ergebnisse (Sensitivität und Spezifität = 0,999) und der aktuellen Verbreitung von HIV (Stand 2009) in der deutschen Bevölkerung (82.000.000 Einwohner, davon 67.000 HIV-positiv) wäre ein allgemeiner HIV-Test verheerend.
HIV pos. | HIV neg. | ||
---|---|---|---|
HIV-Test positiv | 66 933 | 82 000 | 148 933 |
HIV-Test negativ | 67 | ca. 82 Mio | |
Summe | 82 Mio |
Zwar würden von 67.000 tatsächlich Erkrankten lediglich 67 HIV-Infizierte fälschlicherweise nicht erkannt, aber ca. 82.000 Personen würden fälschlicherweise als HIV-positiv diagnostiziert. Von 119.960 positiven Ergebnissen wären etwa 55% falsch positiv, also mehr als die Hälfte der Getesteten. Somit liegt die Wahrscheinlichkeit, dass jemand, der positiv getestet wurde, auch wirklich HIV-positiv ist, bei nur 45%. Anders formuliert, der positive Vorhersagewert beträgt 45%. Dieser angesichts der sehr geringen Fehlerrate von 0.01% liegt darin begründet, das HIV nur bei etwa 0.8% der Bundesbürger auftritt. Durch diesen geringen Anteil kann man die Anzahl der falsch positiven und richtig positiven Testergebnisse nicht direkt miteinander vergleichen.
Herzinfarkt in den USA
In den USA werden pro Jahr etwa 4 Millionen Frauen und Männer aufgrund von Schmerzen in der Brust unter der Verdachtsdiagnose Herzinfarkt in eine Klinik eingewiesen. Im Verlauf der aufwändigen und teuren Diagnostik stellt sich dann heraus, dass von diesen Patienten nur etwa 32 % tatsächlich einen Infarkt erlitten haben. Bei 68 % war die Diagnose Infarkt nicht korrekt (falsch positive Verdachtsdiagnose). Andererseits werden in jedem Jahr etwa 34.000 Patienten aus dem Krankenhaus entlassen, ohne dass ein tatsächlich vorhandener Herzinfarkt erkannt wurde (ca. 0,8 % falsch negative Diagnose).
Herzinfarkt pos. | Herzinfarkt neg. | ||
---|---|---|---|
Untersuchung positiv | 1,3 Mio | ||
Untersuchung negativ | 34 000 | 2,75 Mio | |
Summe | 32 % | 68 % | ca. 4 Mio |
Auch hier ist die Sensitivität der Untersuchung ähnlich hoch, nämlich 99,8 %. Zur Spezifität kann man aber nichts sagen, weil die falsch-positiven Ergebnisse der Untersuchung nicht erwähnt werden, sondern nur die falsch-positiven Eingangsdiagnosen, die auf der Angabe "Herzschmerz" fußen. Betrachtet man aber ausschließlich diese Eingangsdiagnose, dann ist die Angabe der 34.000 Patienten, die fälschlich entlassen werden, wertlos, denn sie haben hiermit nichts zu tun. Man benötigt nämlich die Zahl der mit Herzinfarkt nicht eingewiesenen, die wahrscheinlich keinen Herzschmerz hatten.
Man sollte sich immer davor hüten, solche vermischte Angaben verwerten zu wollen und unbedingt auf eine präzise Formulierung der These achten.
Siehe auch
Literatur
Allgemein
- Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben: Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken. ISBN 3-499-61154-6
- Gerd Gigerenzer: Das Einmaleins der Skepsis. Berlin: Berliner Taschenbuch Verlag, 2004 ISBN 3-8333-0041-8
Information Retrieval
- Makhoul, John; Francis Kubala; Richard Schwartz; Ralph Weischedel: Performance measures for information extraction. In: Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999.
- Baeza-Yates, R.; Ribeiro-Neto, B. (1999). Modern Information Retrieval. New York: ACM Press, Addison-Wesley. Seiten 75 ff. ISBN 0-201-39829-X
- Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In R. Kuhlen: Grundlagen der praktischen Information und Dokumentation. München. Saur, 5. Auflage 2004. Seiten 227-235. ISBN 3-598-11675-6, ISBN 3-598-11674-8
- van Rijsbergen, C.V.: Information Retrieval. London; Boston. Butterworth, 2nd Edition 1979. ISBN 0-408-70929-4
- Jesse Davis und Mark Goadrich: The Relationship Between Precision-Recall and ROC Curves. In: 23rd International Conference on Machine Learning (ICML), 2006.