Zum Inhalt springen

Benutzerin:JakobVoss/InformationRetrieval

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 20. November 2003 um 21:23 Uhr durch JakobVoss (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Open Source Information Retrieval systems


Un stemmer es un programma... de reduccion morfologica.

=> Sciencie experimental: invent an algorithmo and test it.

Búsqueda en Google

Software

Only freely availabe software, prefered GPL:

http://snowball.tartarus.org/ : Snowball es una pequeña lenguaje de programación para el manejo de strings que permite más facil implementar algoritmos de stemming. Puede genear codigo en ANSI C y Java.

  • Muscat Stemmers: open.muscat.com moved to apr smartlogic. was available for free.

Artículos

Conferences:

lgoritmo de stemming de Porter

(facil de traducir para diferentes idiomas)

[C](VC)m[V]

n=2: digram Indice de similaridad: ISa,b=2(nº de digramas comunes)/[(nº de digramas en palabra a)+(nº de digramas en palabra a)], .

Si el indice de dos palabras superior un valor => son las mismas

- cojer una palabra => forma canonica

word bigrams ("home run"), character bigrams

  • Phrase recognition:
    • Statistical
    • Part of speech tagging
    • Syntactic parsing (parse tree)