Zipfsches Gesetz

Das Zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:

$P(i)={\frac {c}{i^{a}}}$

Im einfachen Fall wird für den a ein Exponenten der Wert 1 angenommen, womit er weggelassen werden kann und es gilt

$P(i)i=const.$

Wird mit der relativen Häufigkeit in Prozent gerechnet, so ist $c=1$ .

Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.

$log(P(i))=log(c)-alog(i)$

Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form

$P(i)={\frac {c}{(i+b)^{a}}}$

vorgeschlagen (für das einfache Gesetz von Zipf ist $b=0$ und $a=1$ ).

Eine Interpretation des Zipfsches Gesetzes als Wahrscheinlichkeitsverteilung ist die Zeta-Verteilung, die deshalb auch Zipf-Verteilung genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die Pareto-Verteilung.

Siehe auch: Yule-Verteilung

Eigenschaften

Wie jedes empirische Gesetz ist nämlich auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stopwort") und sehr seltenen Wörtern geringer.

Das zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).

Auftreten in der Praxis

Interessanterweise gilt diese Beziehung nicht nur für Texte in menschlichen Sprachen, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).

Ein unabhäging vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.

Weblinks

http://linkage.rockefeller.edu/wli/zipf/ - Umfangreiche Bibliografie