Zum Inhalt springen

Informationsrückgewinnung

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 2. Juni 2004 um 16:45 Uhr durch Dominik Kuropka (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Information Retrieval (IR) (Informationswiedergewinnung, gelegentlich Informationsbeschaffung) ist ein Fachgebiet, das sich mit computergestützten inhaltsorientierten Suche beschäftigt. Es ist ein Teilgebiet der Dokumentationswissenschaft.

Wie der Begriff retrieval (deutsch Wiedergewinnung, Auffindung) sagt, sind Informationen in großen Datenbeständen zunächst verloren und müssen wiedergewonnen bzw. wiedergefunden werden. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:

  1. Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z. B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
  2. Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z. B. Homonyme (Worte, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).

Ein Information Retrieval System IRS ist eine Spezialisierung eines Informationssystems und kann formal als 7-Tupel beschrieben werden (ohne Berücksichtigung von Relevanz-Feedback):

IRS = (AIR(D), W, Q, AIR(Q), E, ret(.), rank(.)), mit
  1. AIR(D): Dokument-Indexierungsfunktion als Abbildung eines Dokumentes Di auf eine Dokumentrepräsentation xi.
  2. W: Menge aller möglichen Dokumentrepräsentationsmengen.
  3. Q: Menge aller zugelassenen Suchfragen Qj.
  4. AIR(Q): Query-Indexierungsfunktion als Abbildung einer Anfrage Qj auf eine Queryrepräsentation qj.
  5. E: Menge aller möglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking).
  6. ret(.): Retrievalfunktion als Abbildung einer indexierten Suchfrage qj auf eine Teilmenge der Dokumentrepräsentationsmenge.
  7. rank(.): Rankingfunktion als Abbildung der ermittelten Dokumentrepräsentationsteilmenge auf eine Liste der Dokumentrepräsentationen.

Methoden des Information Retrieval werden in Internetsuchmaschinen (z. B. Google), aber auch in Digitalen Bibliotheken (z. B. zur Literatursuche), in Bildsuchmaschinen usw. verwendet. Auch Antwortsysteme oder Spamfilter verwenden IR-Technologien.

IR-Modelle

Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt worden:


Klassifikation von IR-Modellen

Eine zweidimensionale Klassifikation von IR-Modellen zeigt die rechte Abbildung. Folgende Eigenschaften lassen sich bei den verschiedenen Modellen in Abhängigkeit von Ihrer Einordnung in der Matrix beobachten:

Klassifikation von IR-Modellen (in Anlehnung an Dominik Kuropka)
  • Dimension: mathematisches Fundament
    • Mengentheoretische Modelle zeichnen sich dadurch aus, dass sie natürlichsprachliche Dokumente auf Mengen abbilden und die Ähnlichkeitsbestimmung von Dokumenten (in erster Linie) auf die Anwendung von Mengenoperationen zurückführen.
    • Algebraische Modelle stellen Dokumente und Anfragen als Vektoren, Matrizen oder Tupel dar, die zur Berechnung von paarweisen Ähnlichkeiten über eine endliche Anzahl algebraischer Rechenoperationen in ein eindimensionales Ähnlichkeitsmaß überführt werden.
    • Probabilistische Modelle sehen den Prozess der Dokumentensuche bzw. der Bestimmung von Dokumentenähnlichkeiten als ein mehrstufiges Zufallsexperiment an. Zur Abbildung von Dokumentenähnlichkeiten wird daher auf Wahrscheinlichkeiten und probabilistische Theoreme (insbesondere auf den Satz_von_Bayes) zurückgegriffen.
  • Dimension: Eigenschaften des Modells
    • Modelle ohne Terminterdependenzen zeichnen sich dadurch aus, dass jeweils zwei verschiedene Terme als vollkommen unterschiedlich und in keinster Weise miteinander verbunden angesehen werden. Dieser Sachverhalt wird in der Literatur häufig auch als Orthogonalität von Termen bzw. als Unabhängigkeit von Termen bezeichnet.
    • Modelle mit immanenten Terminterdependenzen zeichnen sich dadurch aus, dass sie vorhandene Interdependenzen zwischen Termen berücksichtigen und ihnen somit – im Unterschied zu den Modellen ohne Terminterdependenzen – nicht die implizite Annahme zu Grunde liegt, dass Terme orthogonal bzw. unabhängig voneinander sind. Die Modelle mit den immanenten Terminterdependenzen grenzen sich von den Modellen mit den transzendenten Terminterdependenzen dadurch ab, dass das Ausmaß einer Interdependenz zwischen zwei Termen aus dem Dokumentenbestand, in einer vom Modell bestimmten Weise, abgeleitet wird – also dem Modell innewohnend (immanent) ist. Die Interdependenz zwischen zwei Termen wird bei dieser Klasse von Modellen direkt oder indirekt aus der Co-Occurrenz der beiden Terme abgeleitet. Unter Co-Occurrenz versteht man dabei das gemeinsame Auftreten zweier Terme in einem Dokument. Dieser Modellklasse liegt somit die Annahme zu Grunde, dass zwei Terme zueinander interdependent sind, wenn sie häufig gemeinsam in Dokumenten vorkommen.
    • Wie bei den Modellen mit immanenten Terminterdependenzen liegt auch den Modellen mit transzendenten Terminterdependenzen keine Annahme über die Orthogonalität oder Unabhängigkeit von Termen zu Grunde. Im Unterschied zu den Modellen mit immanenten Terminterdependenzen können die Interdependenzen zwischen den Termen bei den Modellen mit transzendenten Terminterdependenzen nicht ausschließlich aus dem Dokumentenbestand und dem Modell abgeleitet werden. Das heißt, dass die den Terminterdependenzen zu Grunde liegende Logik als über das Modell hinausgehend (transzendent) modelliert wird. Das bedeutet, dass in den Modellen mit transzendenten Terminterdependenzen das Vorhandensein von Terminterdependenzen explizit modelliert wird, aber dass die konkrete Ausprägung einer Terminterdependenz zwischen zwei Termen direkt oder indirekt von außerhalb (z. B. von einem Menschen) vorgegeben werden muss.

Information Retrieval hat Querbezüge zu verschiedenen anderen Gebieten, z. B. Wahrscheinlichkeitstheorie der Computerlinguistik.

Siehe auch: Recall und Precision, Information Extraction

Literatur

  • Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken