Informationsrückgewinnung
Information Retrieval (IR) (auf deutsch gelegentlich Informationsbeschaffung) ist die Wissenschaft von der computergestützten inhaltsorientierten Suche. Sie hat ihre Vorläufer in der Dokumentationswissenschaft. Wie der Begriff retrieval (deutsch Wiedergewinnung, Auffindung) sagt, sind Informationen in großen Datenbeständen zunächst verloren und müssen wiedergewonnen bzw. wiedergefunden werden. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:
- Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z. B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
- Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z. B. Homonyme (Worte, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).
Ein Information Retrieval System IRS ist eine Spezialisierung eines Informationssystems und kann formal als 7-Tupel beschrieben werden (ohne Berücksichtigung von Relevanz-Feedback):
- AIR(D): Dokument-Indexierungsfunktion als Abbildung eines Dokumentes Di auf eine Dokumentrepräsentation xi.
- W: Menge aller möglichen Dokumentrepräsentationsmengen.
- Q: Menge aller zugelassenen Suchfragen Qj.
- AIR(Q): Query-Indexierungsfunktion als Abbildung einer Anfrage Qj auf eine Queryrepräsentation qj.
- E: Menge aller möglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking).
- ret(.): Retrievalfunktion als Abbildung einer indexierten Suchfrage qj auf eine Teilmenge der Dokumentrepräsentationsmenge.
- rank(.): Rankingfunktion als Abbildung der ermittelten Dokumentrepräsentationsteilmenge auf eine Liste der Dokumentrepräsentationen.
Methoden des Information Retrieval werden in Internetsuchmaschinen (z. B. Google), aber auch in Digitalen Bibliotheken (z. B. zur Literatursuche), in Bildsuchmaschinen. Auch Antwortsysteme oder Spamfilter verwenden IR-Technologien.
Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt werden:
- Klassische Modelle
- Boolesches Retrieval und Erweitertes Boolesches Retrieval
- Fuzzy-Retrieval
- Vektorraummodell
- Clusteranalyse
- Probabilistisches Retrieval
- BIR
- Uncertain Inference
- Language Models
Information Retrieval hat Querbezüge zu verschiedenen anderen Gebieten, z. B. Wahrscheinlichkeitstheorie oder Computerlinguistik.
Literatur
- Reginald Ferber: Data Mining und Information Retrieval