Zum Inhalt springen

Informationsrückgewinnung

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 10. Juli 2003 um 08:30 Uhr durch ChristianHujer (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Information Retrieval (IR) ist als Teilbereich der Computerlinguistik die Wissenschaft von der inhaltsorientierten Suche. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:

  • Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z.B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
  • Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z.B. Homonyme (Worte, die gleich geschrieben werden; z.B. Bank - Geldinstitut, Sitzgelegenheit) und Synomye (Bank und Geldinstitut).

Methoden des Information Retrieval werden in Internetsuchmaschinen (z.B. Google), aber auch in Digitalen Bibliotheken (z.B. zur Literatursuche), in Bildsuchmaschinen. Auch Antwortsysteme oder Spamfilter verwenden IR-Technologien.

Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt werden:

  • Klassische Modelle
    • Boolesches Retrieval
    • Fuzzy-Retrieval
    • Vektorraummodell
    • Clustering
  • Probabilistisches Retrieval
    • BIR
    • Uncertain Inference
    • Language Models