Zum Inhalt springen

N-Gram-Analyse

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 12. Mai 2005 um 16:02 Uhr durch Mdomberg (Diskussion | Beiträge) (Beispiel). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die N-Gram Analyse ist ein Verfahren, um mathematische Gesetze, die auf Vektoren angewandt werden können auch auf andere Objekte anzuwenden. Das Verfahren wurde am 23. Mai 1995 vom amerikanischen Geheimdienst NSA patentiert und ständig weiterentwickelt.

Mit der N-Gram Analyse können Kontexte gesucht werden, beispielsweise die Wortgruppe "Atombombe in Nordkorea" in einer großen Anzahl von E-Mails. Dabei ist die verwendete Sprache nicht von Bedeutung: N-Gram Analyse funktioniert in jeder Sprache und jedem Alphabet.

Definition

Sei A ein Alphabet, dann ist |A| die Mächtigkeit des Alphabets. n sein eine positive Zahl. Ein N-Gram ist dann ein Wort der Länge n.

Beispiel

Eine zu durchsuchende Zeichenkette lautet: w={"Welcome to come"}.
n = 2 (sog. Bigramm)
Die "Frequenz", also die Zeichenketten die durch die Analyse entstehen lauten dann:
_W:1
We:1
el:1
lc:1
co:2
om:2
me:2
e_:1
_t:1
to:1
o_:1
_c:1

Der Vektor lautet: (1,1,1,1,2,2,2,1,1,1,1,1) Die Länge des Vektors steigt exponentiell nach |A|^n.