Informationsrückgewinnung
Erscheinungsbild
Information Retrieval (IR) ist als Teilbereich der Computerlinguistik die Wissenschaft von der inhaltsorientierten Suche. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:
- Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z.B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
- Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z.B. Homonyme (Worte, die gleich geschrieben werden; z.B. Bank - Geldinstitut, Sitzgelegenheit) und Synomye (Bank und Geldinstitut).
Methoden des Information Retrieval werden in Internetsuchmaschinen (z.B. Google), aber auch in Digitalen Bibliotheken (z.B. zur Literatursuche), in Bildsuchmaschinen. Auch Antwortsysteme oder Spamfilter verwenden IR-Technologien.
Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt werden:
- Klassische Modelle
- Boolesches Retrieval
- Fuzzy-Retrieval
- Vektorraummodell
- Clustering
- Probabilistisches Retrieval
- BIR
- Uncertain Inference
- Language Models