Zum Inhalt springen

„Recall und Precision“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
[ungesichtete Version][ungesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
K Informationstheoretische Interpretation: Absatz völlig überarbeitet
Zeile 26: Zeile 26:
== Interpretation als Eigenschaften eines Klassifikators ==
== Interpretation als Eigenschaften eines Klassifikators ==


Eine Recherche kann auch als [[Klassierung]] von Dokumenten in mutmaßlich relevante Dokumente (gefunden) und mutmaßlich nicht relevante Dokumente (nicht gefunden) aufgefasst werden. Somit kann folgendes Verfahren zur [[Beurteilung eines Klassifikators|Beurteilung als Klassifikator]] angewandt werden, das auch bei [[Statistischer Test|statistische Tests]] Verwendung findet: Die Grundgesamtheit aller Dokumente wird in einer [[Wahrheitsmatrix]] in relevante, nicht relevante, gefundene und nicht gefundene Dokumente aufgeteilt. Es ergeben sich die vier [[disjunkt|disjunkten Teilmengen]] richtig gefundener, relevanter Dokumente ([[richtig positiv]]), fälschlicherweise gefundener, nicht relevanter Dokumente ([[falsch positiv]]), nicht gefundener, relevanter Dokumente ([[falsch negativ]]) und richtigerweise nicht gefundener, nicht relevanter Dokumente ([[richtig negativ]]):
Eine Recherche kann als [[Klassierung]] von Dokumenten in mutmaßlich relevante Dokumente (gefunden) und mutmaßlich nicht relevante Dokumente (nicht gefunden) aufgefasst werden. Somit kann folgendes Verfahren zur [[Beurteilung eines Klassifikators|Beurteilung als Klassifikator]] angewandt werden, das auch bei [[Statistischer Test|statistische Tests]] Verwendung findet: Die Grundgesamtheit aller Dokumente wird in einer [[Wahrheitsmatrix]] in relevante, nicht relevante, gefundene und nicht gefundene Dokumente aufgeteilt. Es ergeben sich die vier [[disjunkt|disjunkten Teilmengen]] richtig gefundener, relevanter Dokumente ([[richtig positiv]]), fälschlicherweise gefundener, nicht relevanter Dokumente ([[falsch positiv]]), nicht gefundener, relevanter Dokumente ([[falsch negativ]]) und richtigerweise nicht gefundener, nicht relevanter Dokumente ([[richtig negativ]]):


{| class="prettytable"
{| class="prettytable"
Zeile 43: Zeile 43:
|}
|}


Eine gute Recherche sollte möglichst alle relevanten Dokumente finden (richtig positiv) und die nicht relevanten Dokumente nicht finden (richtig negativ). Wird ein irrelevanten Dokument gefunden (falsch positiv), so spricht man bei Statistischen Tests auch von einem [[Fehler 1. Art]] und beim Nicht-Finden eines relevanten Dokumentes (falsch negativ) von einem [[Fehler 2. Art]].
Eine gute Recherche sollte möglichst alle relevanten Dokumente finden (richtig positiv) und die nicht relevanten Dokumente nicht finden (richtig negativ). Wird ein irrelevanten Dokument gefunden (falsch positiv), so spricht man bei Statistischen Tests auch von einem [[Fehler 1. Art]] oder α-Fehler und beim Nicht-Finden eines relevanten Dokumentes (falsch negativ) von einem [[Fehler 2. Art]] oder β-Fehler.


Der Recall eines Verfahrens ergibt sich aus dem Verhältnis richtig positiver zu allen relevanten Dokumente (<math>\frac{a}{a+c}</math>) und die Precision aus dem Verhältnis richtig positiver zu allen gefundenen Dokumenten (<math>\frac{a}{a+b}</math>). Der Fallout entspricht dem Verhältnis nicht gefundener, irrelevanter Dokumente (richtig negativ) zu allen nicht relevanten Dokumenten (<math>\frac{d}/{b+d}</math>).
Der Recall eines Verfahrens ergibt sich aus dem Verhältnis richtig positiver zu allen relevanten Dokumente <math>a/(a+c)</math> und die Precision aus dem Verhältnis richtig positiver zu allen gefundenen Dokumenten <math>a/(a+b)</math>. Der Fallout entspricht dem Verhältnis nicht gefundener, irrelevanter Dokumente (richtig negativ) zu allen nicht relevanten Dokumenten <math>d/(b+d)</math>.

Die [[Irrtumswahrscheinlichkeit]] <math>(b+c)/(a+b+c+d)</math> gibt an, mit welcher Wahrscheinlichkeit ein Dokument durch Nicht-Finden bzw. Finden falsch eingeordnet wurde, da es tatsächlich relevant bzw. nicht relevant war. Das Gegenteil, also der Anteil richtig eingeschätzer Dokumente <math>(a+d)/(a+b+c+d)</math>, ist die Irrtumsunwahrscheinlichkeit. Die Irrtumunwahrscheinlichkeit könnte auch als „Trefferquote“ bezeichnet werden; da dies aber auch den Recall zutrift ist die Bezeichnung „Trefferquote“ zu vermeiden.


== Beispielrechnung ==
== Beispielrechnung ==

Version vom 6. Dezember 2007, 00:31 Uhr

Recall und Precision sind zwei Maße zur Beschreibung der Güte eines Suchergebnisses beim Information-Retrieval oder bei einer Recherche im Allgemeinen. Der Recall beschreibt die Vollständigkeit eines Suchergebnisses. Er ist definiert als der Anteil der bei einer Suche gefundenen relevanten Dokumente (bzw. Datensätze) an den relevanten Dokumenten der Grundgesamtheit. Die Precision beschreibt die Genauigkeit eines Suchergebnisses. Sie ist definiert als der Anteil der gefundenen relevanten Dokumente zu allen bei der Suche gefundenen Dokumenten.

Für die Evaluierung eines Information-Retrieval-Systems sollten die beiden zusammenhängenden Maße gemeinsam betrachtet werden. Im Allgemeinen sinkt mit steigendem Recall (mehr Treffer) die Precision (mehr irrelevante Ergebnisse) und umgekehrt sinkt mit steigender Precision (weniger irrelevante Ergebnisse) der Recall (mehr relevante Dokumente, die nicht gefunden werden), d.h. es besteht eine negative Korrelation. Stellt man das Verhältnis zwischen Recall und Precision in einem Diagramm dar, so wird der (höchste) Wert im Diagramm, an dem der Precision-Wert gleich dem Recall-Wert ist – also der Schnittpunkt des Precision-Recall-Diagramms mit der Identitätsfunktion – der Precision-Recall-Breakeven-Punkt genannt.

Mit dem Fall-Out gibt es für die Evaluierung des Information-Retrieval-Systems noch ein drittes Kriterium. Es beschreibt in negativer Weise die Güte des zu bewertenden Verfahrens, indem die Anzahl der gefundenen irrelevanten Dokumente durch die Gesamtanzahl irrelevanter Dokumente geteilt wird.


Definition als Formel

Probabilistische Interpretation

Es ist auch möglich, die Maße nicht als Verhältnis, sondern als Wahrscheinlichkeit zu interpretieren.

  • Recall ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.
  • Precision ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.
  • Fallout ist die Wahrscheinlichkeit, mit der ein irrelevantes Dokument gefunden wird.

Interpretation als Eigenschaften eines Klassifikators

Eine Recherche kann als Klassierung von Dokumenten in mutmaßlich relevante Dokumente (gefunden) und mutmaßlich nicht relevante Dokumente (nicht gefunden) aufgefasst werden. Somit kann folgendes Verfahren zur Beurteilung als Klassifikator angewandt werden, das auch bei statistische Tests Verwendung findet: Die Grundgesamtheit aller Dokumente wird in einer Wahrheitsmatrix in relevante, nicht relevante, gefundene und nicht gefundene Dokumente aufgeteilt. Es ergeben sich die vier disjunkten Teilmengen richtig gefundener, relevanter Dokumente (richtig positiv), fälschlicherweise gefundener, nicht relevanter Dokumente (falsch positiv), nicht gefundener, relevanter Dokumente (falsch negativ) und richtigerweise nicht gefundener, nicht relevanter Dokumente (richtig negativ):

Relevant (a+c) Nicht relevant (b+d)
Gefunden (a+b) richtig positiv (a) falsch positiv (b)
Nicht gefunden (c+d) falsch negativ (c) richtig negativ (d)

Eine gute Recherche sollte möglichst alle relevanten Dokumente finden (richtig positiv) und die nicht relevanten Dokumente nicht finden (richtig negativ). Wird ein irrelevanten Dokument gefunden (falsch positiv), so spricht man bei Statistischen Tests auch von einem Fehler 1. Art oder α-Fehler und beim Nicht-Finden eines relevanten Dokumentes (falsch negativ) von einem Fehler 2. Art oder β-Fehler.

Der Recall eines Verfahrens ergibt sich aus dem Verhältnis richtig positiver zu allen relevanten Dokumente und die Precision aus dem Verhältnis richtig positiver zu allen gefundenen Dokumenten . Der Fallout entspricht dem Verhältnis nicht gefundener, irrelevanter Dokumente (richtig negativ) zu allen nicht relevanten Dokumenten .

Die Irrtumswahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit ein Dokument durch Nicht-Finden bzw. Finden falsch eingeordnet wurde, da es tatsächlich relevant bzw. nicht relevant war. Das Gegenteil, also der Anteil richtig eingeschätzer Dokumente , ist die Irrtumsunwahrscheinlichkeit. Die Irrtumunwahrscheinlichkeit könnte auch als „Trefferquote“ bezeichnet werden; da dies aber auch den Recall zutrift ist die Bezeichnung „Trefferquote“ zu vermeiden.

Beispielrechnung

In einer Datenbank gibt es zu einer Suchanfrage 78 relevante Dokumente. Eine Suche liefert 32 relevante und 9 nicht relevante Dokumente zurück.

x = 32 (gefundene relevante Dokumente)

y = 9 (gefundene nicht relevante Dokumente)

z = 46 (relevante Dokumente die nicht gefunden wurden)

Recall:

Precision:

Die durchgeführte Suche hat eine Vollständigkeit (Recall) von 0,41 und eine Genauigkeit (Precision) von 0,78 erreicht.

Ein Problem bei der Berechnung des Recalls ist die Tatsache, dass man nur selten weiß, wie viele relevante Dokumente nicht gefunden wurden. Bei größeren Datenbanken, bei denen die Berechnung des absoluten Recalls besonders schwierig ist, wird deswegen mit dem relativen Recall gearbeitet. Dabei wird die gleiche Suche mit mehreren Suchmaschinen durchgeführt und die jeweils neuen relevanten Treffer zu den nicht gefundenen relevanten Dokumenten hinzu addiert. Mit der Rückfangmethode kann abgeschätzt werden, wie viele relevante Dokumente insgesamt existieren.

Literatur

  • Baeza-Yates, R.; Ribeiro-Neto, B. (1999). Modern Information Retrieval. New York: ACM Press, Addison-Wesley. Seiten 75 ff. ISBN 0-201-39829-X
  • Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In R. Kuhlen: Grundlagen der praktischen Information und Dokumentation. München. Saur, 5. Auflage 2004. Seiten 227-235. ISBN 3-598-11675-6, ISBN 3-598-11674-8
  • van Rijsbergen, C.V.: Information Retrieval. London; Boston. Butterworth, 2nd Edition 1979. ISBN 0-408-70929-4