Zipfsches Gesetz
Das Zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundene Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:
Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.
Im einfachen Fall wird für den Exponenten der Wert 1 angenommen, und es gilt
Bei der Berechnung relativer Häufigkeiten wird so gewählt, dass gilt:
Für große mit kann über die Näherungsformel für harmonische Reihen berechnet werden.
Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Benoit Mandelbrot die Form
vorgeschlagen (für das einfache Gesetz von Zipf ist und ).
Eine Interpretation des Zipfschen Gesetzes als Wahrscheinlichkeitsverteilung ist die Zeta-Verteilung, die deshalb auch Zipf-Verteilung genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die Pareto-Verteilung.
Siehe auch: Yule-Verteilung, Bradfordsches Gesetz
Eigenschaften
Wie jedes empirische Gesetz ist auch das Zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stoppwort") und sehr seltenen Wörtern geringer.
Das Zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).
Ein unabhängig vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.
Auftreten in der Praxis
Interessanterweise gilt diese Beziehung nicht nur für Wörter und Buchstaben in Texten menschlicher Sprachen oder Noten in der Musik, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).
Beispiel 1: Worthäufigkeiten

Die Verteilung der Worthäufigkeiten in einem Text gehorcht annähernd einer einfachen Zipfschen Verteilung.
In einem Beispieltext tritt das Wort und mit einer Häufigkeit von ca. 8 % auf, gefolgt von die und der mit ca. 5 %, siehe Tabelle.
Die 14 häufigsten Worte in einem deutschen Text: Rang Wort rel. Häuf. Zipfsche Häufigkeit 1 UND 0.08427 0.14027 2 DIE 0.05390 0.07014 3 DER 0.05383 0.04676 4 IN 0.02164 0.03507 5 WIR 0.01676 0.02805 6 ZU 0.01564 0.02338 7 FÜR 0.01536 0.02004 8 SIE 0.01306 0.01753 9 VON 0.01285 0.01559 10 DEN 0.01208 0.01403 11 DES 0.01131 0.01275 12 IST 0.01068 0.01169 13 EINE 0.01047 0.01079 14 NICHT 0.00991 0.01002
Beschränken wir uns auf die ersten 700 Ränge, beträgt die Summe der harmonischen Reihe
und damit
Gemäß der Zipfschen Verteilung sollte das häufigste Wort mit einem Anteil von , das zweithäufigste mit etc. auftauchen. Den Vergleich zwischen gemessener Verteilung und der Verteilung nach Zipf zeigt die Abbildung rechts.
Beispiel 2: Buchstabenhäufigkeiten

Auch die Verteilung der Buchstaben-Häufigkeiten ähnelt einer Zipfschen Verteilung. Der Buchstabe E und das Leerzeichen sind mit einem Anteil von ca. 13% vertreten, gefolgt vom Buchstaben N mit 9%. Nach Zipf erwartete man eine Häufigkeit von 24% bzw. 12% für die beiden häufigsten Zeichen.
Häufigkeit der Buchstaben und einiger Satzzeichen in einem deutschen Text: Rang Wort rel. Häuf. Zipfsche Häufigkeit 1 E 0.13678 0.23955 2 Leerz. 0.13048 0.11977 3 N 0.09034 0.07985 4 I 0.06908 0.05989 5 R 0.06501 0.04791 6 S 0.05426 0.03992 7 T 0.05386 0.03422 8 D 0.04119 0.02994 9 A 0.04011 0.02662 10 U 0.03947 0.02395 11 H 0.03565 0.02178 12 L 0.03449 0.01996 13 G 0.02820 0.01843 14 C 0.02565 0.01711 15 O 0.02016 0.01597 16 M 0.01938 0.01497 17 B 0.01743 0.01409 18 F 0.01663 0.01331 19 W 0.01409 0.01261 20 K 0.01230 0.01198 21 Z 0.01032 0.01141 22 . 0.00818 0.01089 23 , 0.00790 0.01042 24 V 0.00755 0.00998 25 Ü 0.00613 0.00958 26 P 0.00560 0.00921 27 Ä 0.00537 0.00887 28 Ö 0.00289 0.00856 29 J 0.00064 0.00826 30 Q 0.00033 0.00798 31 Y 0.00027 0.00773 32 X 0.00014 0.00749
Weblinks
- http://linkage.rockefeller.edu/wli/zipf/ - Umfangreiche Bibliografie
- http://arxiv.org/abs/cs.CL/0406015 - Zipf's law and the creation of musical context
- http://wortschatz.uni-leipzig.de/html/faq/hkl.html - Zipfsches Gesetz am Beispiel Deutscher Wortschatz