Zum Inhalt springen

Zipfsches Gesetz

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 1. November 2004 um 00:28 Uhr durch Tomi (Diskussion | Beiträge) (it:Legge di Zipffi:Zipfin laki). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Das Zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundene Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:

Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.

Im einfachen Fall wird für den Exponenten der Wert 1 angenommen, und es gilt

Bei der Berechnung relativer Häufigkeiten wird so gewählt, dass gilt:

Für große mit kann über die Näherungsformel für harmonische Reihen berechnet werden.


Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Benoit Mandelbrot die Form

vorgeschlagen (für das einfache Gesetz von Zipf ist und ).

Eine Interpretation des Zipfschen Gesetzes als Wahrscheinlichkeitsverteilung ist die Zeta-Verteilung, die deshalb auch Zipf-Verteilung genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die Pareto-Verteilung.

Siehe auch: Yule-Verteilung, Bradfordsches Gesetz

Eigenschaften

Wie jedes empirische Gesetz ist auch das Zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "Stoppwort") und sehr seltenen Wörtern geringer.

Das Zipfsche Gesetz markierte den Beginn der quantitativen Linguistik (nzz.ch).

Ein unabhängig vom Gesetz von Zipf festgestellter Spezialfall ist das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.

Auftreten in der Praxis

Interessanterweise gilt diese Beziehung nicht nur für Wörter und Buchstaben in Texten menschlicher Sprachen oder Noten in der Musik, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).

Beispiel 1: Worthäufigkeiten

Verteilung der Worthäufigkeiten eines deutschen Textes in Abhängigkeit vom Wort-Rang.

Die Verteilung der Worthäufigkeiten in einem Text gehorcht annähernd einer einfachen Zipfschen Verteilung.

In einem Beispieltext tritt das Wort und mit einer Häufigkeit von ca. 8 % auf, gefolgt von die und der mit ca. 5 %, siehe Tabelle.

Die 14 häufigsten Worte in einem deutschen Text:
Rang Wort  rel. Häuf.  Zipfsche Häufigkeit
 1    UND  0.08427     0.14027
 2    DIE  0.05390     0.07014
 3    DER  0.05383     0.04676
 4     IN  0.02164     0.03507
 5    WIR  0.01676     0.02805
 6     ZU  0.01564     0.02338
 7    FÜR  0.01536     0.02004
 8    SIE  0.01306     0.01753
 9    VON  0.01285     0.01559
10    DEN  0.01208     0.01403
11    DES  0.01131     0.01275
12    IST  0.01068     0.01169
13   EINE  0.01047     0.01079
14  NICHT  0.00991     0.01002

Beschränken wir uns auf die ersten 700 Ränge, beträgt die Summe der harmonischen Reihe

und damit

Gemäß der Zipfschen Verteilung sollte das häufigste Wort mit einem Anteil von , das zweithäufigste mit etc. auftauchen. Den Vergleich zwischen gemessener Verteilung und der Verteilung nach Zipf zeigt die Abbildung rechts.

Beispiel 2: Buchstabenhäufigkeiten

Relative Häufigkeit der Buchstaben eines deutschen Textes in Abhängigkeit vom Wort-Rang.

Auch die Verteilung der Buchstaben-Häufigkeiten ähnelt einer Zipfschen Verteilung. Der Buchstabe E und das Leerzeichen sind mit einem Anteil von ca. 13% vertreten, gefolgt vom Buchstaben N mit 9%. Nach Zipf erwartete man eine Häufigkeit von 24% bzw. 12% für die beiden häufigsten Zeichen.

Häufigkeit der Buchstaben und einiger Satzzeichen in einem deutschen Text:
Rang Wort  rel. Häuf.  Zipfsche Häufigkeit
  1     E  0.13678     0.23955
  2 Leerz. 0.13048     0.11977
  3     N  0.09034     0.07985
  4     I  0.06908     0.05989
  5     R  0.06501     0.04791
  6     S  0.05426     0.03992
  7     T  0.05386     0.03422
  8     D  0.04119     0.02994
  9     A  0.04011     0.02662
 10     U  0.03947     0.02395
 11     H  0.03565     0.02178
 12     L  0.03449     0.01996
 13     G  0.02820     0.01843
 14     C  0.02565     0.01711
 15     O  0.02016     0.01597
 16     M  0.01938     0.01497
 17     B  0.01743     0.01409
 18     F  0.01663     0.01331
 19     W  0.01409     0.01261
 20     K  0.01230     0.01198
 21     Z  0.01032     0.01141
 22     .  0.00818     0.01089
 23     ,  0.00790     0.01042
 24     V  0.00755     0.00998
 25     Ü  0.00613     0.00958
 26     P  0.00560     0.00921
 27     Ä  0.00537     0.00887
 28     Ö  0.00289     0.00856
 29     J  0.00064     0.00826
 30     Q  0.00033     0.00798
 31     Y  0.00027     0.00773
 32     X  0.00014     0.00749