Zum Inhalt springen

Stemming

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 3. Juni 2004 um 10:50 Uhr durch Dominik Kuropka (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Als Stemming bezeichnet man im Information-Retrieval ein Verfahren, mit dem verschiedene morphologischen Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. (beispielsweise Wikis auf Wiki und schriebe auf schreiben). Verschiedene Varianten eines Wortes können durch endstanden sein durch

Stemming-Verfahren

Zum Stemming gibt es verschiedene Algorithmen für verschiedene Sprachen. Die Entwicklung eines Stemmers ist eine experimentelle Wissenschaft, da Algorithmen nicht verfiziert werden können sondern erst an Textkopora und in der Praxis getestet werden müssen.

Nicht alle Suchmaschinen bieten die Möglichkeit des Stemmings. Eine alternative, sehr viel einfachere und weniger genaue Möglichkeit ist die Suche nach Teil-Zeichenketten, z. B. mit dem Stern-Operator.

Anmerkungen

Im Gegensatz zur Suche beispielsweise mit regulären Ausdrücken wird eine Menge von Texten einmalig indexiert um später schnell durchsucht werden zu können.

In einigen Sprachen spielt auch die Wortzerlegung und Zusammensetzung ("lief weg" => "weglaufen") eine bedeutende Rolle.


Siehe auch: Indexierung, Volltextindexierung, Stopwort, Part of Speech Tagging, Information Retrieval, Suchmaschine