Zipfsches Gesetz

Das zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:

$P(i)={\frac {c}{i^{a}}}$

Im einfachen Fall wird für den a ein Exponenten der Wert 1 angenommen, womit er weggelassen werden kann. Wird mit der relativen Häufigkeit in Prozent gerechnet, so ist $c=1$ .

Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.

$log(P(i))=log(c)-alog(i)$

Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form

$P(i)={\frac {c}{(i+b)^{a}}}$

vorgeschlagen (für das einfache Gesetz von Zipf ist $b=0$ und $a=1$ ).

Eigenschaften

Wie jedes empirische Gesetz ist nämlich auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stopwort") und sehr seltenen Wörtern geringer.

Das zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).

Auftreten in der Praxis

Interessanterweise gilt diese Beziehung nicht nur für Texte in menschlichen Sprachen, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Desweitere wurde es unter Anderem bei folgenden Phänomenen festgestellt:

Anfragewahrscheinlichkeit und Häufigkeit von Webseiten
Grösse von Städten, Erdbeben, u.v.a.m.

Ein unabhäging vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.

Weblinks

http://linkage.rockefeller.edu/wli/zipf/ - Umfangreiche Bibliografie