Zum Inhalt springen

Zipfsches Gesetz

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 21. Februar 2004 um 18:28 Uhr durch LennyWikipedia (Diskussion | Beiträge) (Z). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Das Zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:

Im einfachen Fall wird für den a ein Exponenten der Wert 1 angenommen, womit er weggelassen werden kann und es gilt

Wird mit der relativen Häufigkeit in Prozent gerechnet, so ist .

Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.

Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form

vorgeschlagen (für das einfache Gesetz von Zipf ist und ).

Eine Interpretation des Zipfsches Gesetzes als Wahrscheinlichkeitsverteilung ist die Zeta-Verteilung, die deshalb auch Zipf-Verteilung genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die Pareto-Verteilung.

Siehe auch: Yule-Verteilung

Eigenschaften

Wie jedes empirische Gesetz ist nämlich auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stopwort") und sehr seltenen Wörtern geringer.

Das zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).

Auftreten in der Praxis

Interessanterweise gilt diese Beziehung nicht nur für Texte in menschlichen Sprachen, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).

Ein unabhäging vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.