Information Retrieval (IR) ist die Wissenschaft von der computergestützten inhaltsorientierten Suche. Sie hat ihre Vorläufer in der Dokumentationswissenschaft. Wie der Begriff Wiedergewinnung (engl. retrieval) sagt, sind Informationen in großen Datenbeständen zunächst verloren und müssen wiedergewonnen bzw. wiedergefunden werden. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:
- Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z.B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
- Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z.B. Homonyme (Worte, die gleich geschrieben werden; z.B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).
Methoden des Information Retrieval werden in Internetsuchmaschinen (z. B. Google), aber auch in Digitalen Bibliotheken (z. B. zur Literatursuche), in Bildsuchmaschinen. Auch Antwortsysteme oder Spamfilter verwenden IR-Technologien.
Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt werden:
- Klassische Modelle
- Boolesches Retrieval und Erweitertes Boolesches Retrieval
- Fuzzy-Retrieval
- Vektorraummodell
- Clustering
- Probabilistisches Retrieval
- BIR
- Uncertain Inference
- Language Models
Information Retrieval hat Querbezüge zu verschiedenen anderen Gebieten, z. B. Wahrscheinlichkeitstheorie oder Computerlinguistik.