Benutzerin:JakobVoss/InformationRetrieval
Erscheinungsbild
Open Source Information Retrieval systems
- http://www.xapian.org/ - Open Source Probabilistic Information Retrieval library
- http://ils.unc.edu/tera/ - TeraScale Retrieval Project's (apply IR techniques to large scale datasets)
Un stemmer es un programma... de reduccion morfologica.
=> Sciencie experimental: invent an algorithmo and test it.
Búsqueda en Google
Software
Only freely availabe software, prefered GPL:
http://snowball.tartarus.org/ : Snowball es una pequeña lenguaje de programación para el manejo de strings que permite más facil implementar algoritmos de stemming. Puede genear codigo en ANSI C y Java.
- http://www.xapian.org The Xapian Project: includes stemmers for many languages
- http://www.tartarus.org/~martin/PorterStemmer/ Official site of porter stemmer (en). Many implementations available
- Muscat Stemmers: open.muscat.com moved to apr smartlogic. was available for free.
Artículos
- Angel F. Zazo Rodríguez...: Term expansion using stemming and thesauri in spanish
Conferences:
- CLEF: Cross-Language Evaluation Forum: http://clef.iei.pi.cnr.it:2002/ since 2000?
- Text REtrieval Conference (TREC): http://trec.nist.gov/ since 1993
lgoritmo de stemming de Porter
(facil de traducir para diferentes idiomas)
[C](VC)m[V]
- C: consonante
- VC: vocalicos, consonanticos
- http://www.tartarus.org/~martin/PorterStemmer/
n=2: digram Indice de similaridad: ISa,b=2(nº de digramas comunes)/[(nº de digramas en palabra a)+(nº de digramas en palabra a)], .
Si el indice de dos palabras superior un valor => son las mismas
- cojer una palabra => forma canonica
word bigrams ("home run"), character bigrams
- Phrase recognition:
- Statistical
- Part of speech tagging
- Syntactic parsing (parse tree)