Stemming
Als Stemming bezeichnet man im Information-Retrieval ein Verfahren, mit dem verschiedene morphologischen Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. (beispielsweise Wikis auf Wiki und schriebe auf schreiben). Verschiedene Varianten eines Wortes können durch endstanden sein durch
Stemming-Verfahren
Zum Stemming gibt es verschiedene Algorithmen für verschiedene Sprachen. Die Entwicklung eines Stemmers ist eine experimentelle Wissenschaft, da Algorithmen nicht verfiziert werden können sondern erst an Textkopora und in der Praxis getestet werden müssen.
- Porter Stemmer Algorithmus (eines der bekanntesten Verfahren)
- KSTEM (Robert Krovetz: Viewing morphology as an inference process, 1993)
- n-Gram Verfahren
- Lexikonbasierte Stemming (Lemmatisierung)
- Korpus-basiertes Stemming
- Statistische Verfahren
- Computerlinguistische Verfahren
Nicht alle Suchmaschinen bieten die Möglichkeit des Stemmings. Eine alternative, sehr viel einfachere und weniger genaue Möglichkeit ist die Suche nach Teil-Zeichenketten, z. B. mit dem Stern-Operator.
Anmerkungen
Im Gegensatz zur Suche beispielsweise mit regulären Ausdrücken wird eine Menge von Texten einmalig indexiert um später schnell durchsucht werden zu können.
In einigen Sprachen spielt auch die Wortzerlegung und Zusammensetzung ("lief weg" => "weglaufen") eine bedeutende Rolle.
Siehe auch: Indexierung, Volltextindexierung, Stopwort, Part of Speech Tagging, Information Retrieval, Suchmaschine