Zipfsches Gesetz

Paretoverteilung der Häufigkeit von Worten in Texten einer Sprache
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 9. Januar 2004 um 20:15 Uhr durch JakobVoss (Diskussion | Beiträge) (+Stopwort). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Das zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:

Im einfachen Fall wird für den a ein Exponenten der Wert 1 angenommen, womit er weggelassen werden kann. Wird mit der relativen Häufigkeit in Prozent gerechnet, so ist .

Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.

Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form

vorgeschlagen (für das einfache Gesetz von Zipf ist und ).


Eigenschaften

Wie jedes empirische Gesetz ist nämlich auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stopwort") und sehr seltenen Wörtern geringer.

Das zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).

Auftreten in der Praxis

Interessanterweise gilt diese Beziehung nicht nur für Texte in menschlichen Sprachen, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Desweitere wurde es unter Anderem bei folgenden Phänomenen festgestellt:

  • Anfragewahrscheinlichkeit und Häufigkeit von Webseiten
  • Grösse von Städten, Erdbeben, u.v.a.m.

Ein unabhäging vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.