Soundex
Soundex, Metaphone und Miracode sind phonetische Algorithmen zur Indexierung von Wörtern und Phrasen nach ihrem Klang in der englischen Sprache. Gleichklingende Wörter sollen dabei zu einer identischen Zeichenfolge codiert werden.
Soundex wurde von Russell für die Indizierung der Familiennamen der Volkszählung (Census) in den USA entwickelt und 1918 patentiert (US-Patent 1,261,167). Der Soundex-Code für ein Wort besteht aus seinem ersten Buchstaben gefolgt von drei Ziffern, die die nach dem Anfangsbuchstaben folgenden Konsonanten des Wortes repräsentieren. Ähnliche Laute besitzen den gleichen Code (B, F, P und V werden z.B. alle mit der Ziffer "1" codiert).
Metaphone wurde von Lawrence Philips entwickelt und ist eine eingebaute Funktion in PHP.
Siehe auch: en:Porter stemming algorithm
Weblinks
- http://www.nara.gov/genealogy/soundex/soundex.html
- http://aspell.sourceforge.net/metaphone/
- PHP-Implementation von Metaphone
- Freie Implementation in Java http://jakarta.apache.org/commons codec project