Vektorraum-Retrieval
Das Vektorraum-Retrieval ist ein Verfahren des Information Retrieval, bei dem Dokumente und Anfragen (Queries) als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert sind. Zum Retrieval wird die Distanz zwischen dem Queryvektor und dem Dokumentvektoren genutzt.
Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes DVR und der Dokument-Indexierung, bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt (Dokumentvektoren) im DVR abgebildet werden. Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen, die alle auf der Häufigkeit von Merkmalen wie Termen, Lemmata oder n-Grammen in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen.
Das Retrieval im Vektorraummodell führt zunächst eine Query-Indexierung durch, bei welcher die Anfrage auf einen Vektor im Vektorraum abgebildet wird. Die nachfolgende Retrieval-Funktion ermittelt eine Teilmenge der Dokumentvektoren, die eine bestimmte Ähnlichkeit bezüglich dem Queryvektor besitzen, und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab. Dem Nutzer, welcher die Query gestellt hat, wird eine Liste von Dokumenten präsentiert, welche zu der Liste der Dokumentvektoren korrespondiert.
Dokument-Indexierung im Vektorraummodell
Gegeben ist eine Dokumentmenge D = {Di | i = 1, ..., m} mit m ∈ N Dokumenten zu einem Zeitpunkt t, wobei im weiteren vereinfachend D verwendet werden soll. Dokumente werden dabei allgemein als eine endliche Sequenz von Zeichen dij über einem endlichen Alphabet Φ betrachtet:
Sei D(Φ) die Menge aller möglichen Zeichensequenzen über Φ. Von D(Φ) differenzieren muß man die Menge aller zugelassenen Dokumente DVR-IR ⊂ D(Φ), da die Länge der Zeichensequenz einschränkt werden muss, weil in der Gesamtmenge D(Φ) so lange Sequenzlängen enthalten sind, die nicht sinnvoll verarbeitbar sind.
Ziel der Dokument-Indexierung ist es, jedem Dokument Dj genau ein Dokumentvektor xj ∈ DVR als Repräsentation zuzuordnen, wobei den Dimensionen des betreffenden Dokumentvektorraumes DVR unterschiedliche Typen von Merkmalen (Feature) zugeordnet werden können:
- symbolische Merkmale, indem jedem Indexterm eine Dimension zugeordnet wird;
- subsymbolische Merkmale, indem z.B. jedem Zeichen-n-Gram eine Dimension zugeordnet wird.
Die Abbildung eines Dokumentes auf ein Dokumentvektor wird durch eine Dokument-Indexierungsfunktion AVR-IR(D) durchgeführt. Wird angenommen, dass die Abbildung eines Dokumentes unabhängig von allen anderen Dokumenten aus D durchgeführt werden kann, so ergibt sich die Darstellung von AVR-IR(D) mit D(Φ) als der Menge aller möglichen Zeichensequenzen über einem endlichen Alphabet Φ:
Es zeigt sich jedoch, dass die Eigenschaften aller restlichen m-1 Dokumente aus D verwendet werden müssen, um ein spezieles Dokument zu indexieren, sodass für die Indexierungsfunktion das (m-1)-fache Kreuzprodukt aus der Menge aller zugelassenen Zeichensequenzen verwendet werden muss:
Grundlage der unterschiedlichen Möglichkeiten, die Dokument-Indexierungsfunktion zu formulieren, sind die absoluten Häufigkeiten des Auftretens eines Merkmals (Feature Fi) in einem Dokument Dj, was mit h(Fi | Dj) bezeichnet werden soll, sowie die absoluten Häufigkeiten von Fi in der gesamten Dokumentmenge D, was mit h(Fi | D) bezeichnet werden soll.
Die allgemeine Vorgehensweise besteht darin, mit Hilfe der absoluten Häufigkeiten zunächst dokumentmengen-spezifische Merkmalsgewichtungen der Form w(Fi | D) zu berechnen, die mit Hilfe relativer Häufigkeiten h(Fi | Dj) in dokument-spezifische Merkmalsgewichtungen w(Fi | Dj) umgewandelt werden. Diese Merkmalsgewichtungen werden in den Dokumentvektoren als i'te Komponente xji eines Vektors xj verwendet.
Beispiele für dokumentmengen-spezifische Merkmalsgewichtungen sind die logarithmische Gewichtung, mit m als der Anzahl der Dokumente:
oder die normalisierte logarithmische Gewichtung, mit h(Fmax|D | D) als der absoluten Häufigkeit des Merkmals, welches in der Dokumentmenge am häufigsten auftritt:
Weitere Beispiele sind die hyperbolische Gewichtung und die normalisierte hyperbolische Gewichtung:
Mit Hilfe des Informationsballastes (Salton & McGill (1987: 70)) bzw. des Rauschens noise(Fi | D) und des Signals sig(Fi | D) können weitere Maße definiert werden. Sei D(Fi) die Menge aller Dokumente aus D, in denen das Merkmal Fi auftritt, so gilt:
Aus diesen Maßen kann die Extropie
sowie die folgenden drei Merkmalsgewichtungen abgeleitet werden:
Aus den dokumentmengenspezifischen Merkmalsgewichtungen w(Fi | D) werden dokumentspezifische Merkmalsgewichtungen w(Fi | Dj) erzeugt, die als Komponenten xji der Dokumentvektoren verwendet werden, indem die dokumentmengenspezifischen Merkmalsgewichtungen direkt übernommen werden, oder indem sie werden mit relativen Häufigkeiten r(Fi | Dj) multipliziert werden:
Für die relativen Häufigkeiten r(Fi | Dj) existieren wiederum eine Reihe von verschiedenen Formulierungen. Die relative Häufigkeit für einen binären Vergleich wird definiert mit
Die logarithmische Häufigkeit wird definiert durch:
Normalisierte relative Häufigkeiten werden angegeben mit dem Parameter K ∈ [0,3, 0,5], mit h(Fmax|j | Dj) als der absoluten Häufigkeit des Merkmals Fmax|j, das in Dj am häufigsten vorkommt:
Werden auf diese Weise für alle Dokumente Dj aus der Dokumentmenge D genau ein Dokumentvektor xj berechnet, so entsteht die Dokumentvektorenmenge DVM.
Zu dieser Menge korrespondiert die Dokument-Term-Matrix, in der die Zeilen die Dokumentvektoren Dj und die Spalten die Merkmalsvektoren Fi repräsentieren. Die Zellen der m &midpoint; n-Matrix entsprechen den reellen Vektorkomponenten xji.
Dj\Fi | F1 | * | * | * | Fn |
---|---|---|---|---|---|
D1 | x11 | * | * | * | x1n |
* * * | * * * | * * * | * * * | * * * | * * * |
Dm | xm1 | * | * | * | xmn |
Metrik im Vektorraummodell
Unabhängig von der Dokument-Indexierung ist die Festlegung der Metrik im DVR, d.h. einer Distanzfunktion, die mehrere Zusatzbedingungen erfüllt, und mit der die Distanzen zwischen den Punkten im DVR eindeutig berechnet werden können. Eine entsprechende Metrik kann aus der Menge der möglichen bzw. sinnvoll für DVR verwendbaren Metriken stammen. Im weiteren soll MDVR als die Menge der zugelassenen Metriken gelten, wobei eine mögliche parametrische Festlegung die Verwendung der Minkowski-Metrik ist:
Retrieval im Vektorraummodell
Beim Retrieval wird durch einen Nutzer eine Query Qj formuliert, die genau wie ein Dokument als eine endliche Zeichensequenz über endlichen Alphabet betrachtet wird. Vereinfachend wird angenommen, das beide Alphabete identisch sind, d.h. die Menge aller möglichen Zeichensequenzen einer Query soll gleich sein der Menge aller möglichen Zeichensequenzen eines Dokumentes:
Für eine Query gilt somit in Analogie zu einem Dokument:
Mit der gleichen Argumentation wie bei den Dokumenten kann Q(Φ) von der Menge aller zugelassenen Suchfragen QVR-IR ⊂ Q(Φ) unterschieden werden, damit die Länge der Zeichensequenz einschränkt werden kann.
Indexierung der Query
Im ersten Schritt des Retrievals wird die Query Qj durch eine Query-Indexierungsfunktion AVR-IR(Q) abgebildet auf einen Queryvektor qj, der Element des Dokumentvektorraumes DVR ist.
Die Query-Indexierung kann die Merkmalshäufigkeiten und -gewichtungen in analoger Weise wie die Dokument-Indexierung verwenden, d.h. die vorliegenden dokumentmengen-spezifischen Merkmalsgewichtungen w(Fi | D) werden durch Multiplikation mit relativen Häufigkeiten aus der Query zu queryspezifischen Merkmalsgewichtungen w(Fi | Qj), die als Komponenten des Queryvektors verwendet werden. Dies bedeutet jedoch, dass potentiell alle n dokumentmengen-spezifischen Merkmalsgewichtungen verwendet werden müssen, die jeweils aus R, R+ oder [0, 1] stammen. Die Query-Indexierungsfunktion lässt sich somit definieren als:
Retrievalfunktion
Im nächsten Schritt wird mit einer Retrievalfunktion retVR-IR eine Teilmenge aus der Dokumentvektorenmenge DVM festgelegt, die in Abhängigkeit von dem Queryvektor qj mit DVMj bezeichnet wird. Sei PDVM die Potenzmenge der Dokumentvektorenmenge, so ergibt sich die formale Spezifikation der Retrievalfunktion als:
Eine einfache Spezifizierung der Retrievalfunktion verwendet die Distanzen von qj und allen Dokumentvektoren xi, sowie ein Schwellenwert ε ∈ R+. Es werden alle Dokumentvektoren ermittelt, deren Abstand zu qj kleiner ε ist, d.h. die in einer ε-Umgebung um qj liegen:
Im einfachsten Fall könnte nun dem User, der die Query Qj gestellt hat, die Dokumentmenge D(Qj) als Retrievalergebnis präsentiert werden, die zu der Dokumentvektorenmenge DVMj korrespondiert.
Rankingfunktion
Anstatt einer ungeordneten Dokumentmenge als Retrievalergebnis ist es jedoch besser, eine geordnete Liste zu präsentieren. Nachdem die Teilmenge DVMj ermittelt wurde, soll diese in eine geordnete Liste umgewandelt werden, wobei dem Nutzer letztendlich die "vermutlich besten" Dokumente zuerst präsentiert werden sollen (Ranking). Dies geschieht durch die Rankingfunktion rankVR-IR als Abbildung von DVMj auf eine Liste der Dokumentvektoren DVj unter Verwendung der Metrik dDVR. Sei LDVM die Menge aller möglichen Dokumentvektorlisten, die aus der Dokumentvektormenge DVM gebildet werden können, so ergibt sich für die formale Spezifikation der Rankingfunktion:
Naheliegend ist die Ordnung aller Dokumentvektoren aus DVMj nach steigender Distanz zu dem Queryvektor qj:
Formale Beschreibung des Vektorraummodells
Fasst man die Betriebsarten Indexierung und Retrieval zusammen, so kann ein VR-IRS formal als 7-Tupel beschrieben werden, wenn die Möglichkeit des Relevanz-Feedbacks unberücksichtigt bleibt:
- DVR-IR: Menge aller zugelassenen Dokumente.
- AVR-IR(D): Dokument-Indexierungsfunktion als Abbildung eines Dokumentes Di auf einen Dokumentvektor xi unter Verwendung aller m ∈ N Dokumente in einer gegebenen Dokumentmenge D:
- QVR-IR: Menge aller zugelassenen Suchfragen.
- AVR-IR(Q): Query-Indexierungsfunktion als Abbildung einer Anfrage Qj auf einen Queryvektor qj:
- MDVR: Menge aller zugelassenen Metriken für DVR.
- retVR-IR: Retrievalfunktion als Abbildung des Queryvektors qj auf eine Teilmenge der Dokumentvektormenge DVMj unter Verwendung der gegebenen Dokumentvektorenmenge DVM, der Metrik dDVR und einem Distanzschwellenwert ε:
- rankVR-IR: Rankingfunktion als Abbildung der ermittelten Teilmenge DVMj auf eine Liste der Dokumentvektoren DVjt unter Verwendung der Metrik dDVR:
Literatur
- Baeza-Yates, Richardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. ACM Press, New York, 1999, 0-21-39829-X.
- Ferber, Reginald: Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg, 2003, 3-89864-213-5.
- Grossman, D.A.; Frieder, O.: Information Retrieval. Kluwer, 1998.
- Kowalski, Gerald; Maybury, M.T.: Information Storage and Retrieval Systems. Kluwer, Boston, 2000.
- Salton, Gerard; McGill, M.J.: Information Retrieval. MacGraw-Hill, 1987.
- Panyr, Jiri: Automatische Klassifikation und Information Retrieval. Tübingen, 1986.
- Zobel, Justin; Moffat, Alistair: Exploring the Similarity Space. In: SIGIR Forum, Vol. 32, 1998, Nr. 1, S. 18 - 34.
Siehe auch: Zipfsches Gesetz, Suchmaschine, Stemming