Pareto-Verteilung

Die Pareto-Verteilung, benannt nach dem italienischen Ingenieur, Soziologen und Ökonomen Vilfredo Pareto (1848–1923), ist eine stetige Wahrscheinlichkeitsverteilung.

Ebenfalls nach Vilfredo Pareto benannt, aber thematisch nicht mit der Pareto-Verteilung verwandt, ist das Pareto-Optimum.

Pareto-Prinzip

Die Pareto-Verteilung beschreibt das statistische Phänomen, wenn eine kleine Anzahl von hohen Werten einer Wertemenge mehr zu deren Gesamtwert beiträgt, als die hohe Anzahl der kleinen Werte dieser Menge.

Pareto untersuchte die Verteilung des Volksvermögens in Italien und fand heraus, dass ca. 20 % der Familien ca. 80 % des Vermögens besitzen. Banken sollten sich also vornehmlich um diese 20 % der Menschen kümmern und ein Großteil ihrer Auftragslage wäre gesichert.

Daraus leitet sich das Pareto-Prinzip ab, auch „80-zu-20-Regel“, „80-20-Verteilung“ oder „Pareto-Effekt“ genannt. Es besagt, dass sich viele Aufgaben mit einem Mitteleinsatz von ca. 20 % so erledigen lassen, dass 80 % aller Probleme gelöst werden. Es wird häufig kritiklos für eine Vielzahl von Problemen eingesetzt, ohne dass die Anwendbarkeit im Einzelfall belegt wird. Allerdings ist das „Prinzip“ eine gute Merkhilfe für den Wertebereich eines für zwei Quantile berechneten Theil-Indexes (s.u.): Dieses Ungleichverteilungsmaß hat bei einer 50-50-Verteilung den Wert „0“. Knapp über einer 80-20-Verteilung ist der Wert "1". (Bei einem weiteren Anstieg in Richtung einer 100-0-Verteilung steigt der Theil-Index theoretisch ins Unendliche.)

Definition

Eine stetige Zufallsvariable $X$ heißt Pareto-verteilt $\operatorname {Par} (k,x_{\min })$ mit den Parametern $k>0$ und $x_{\min }>0$ , wenn sie die Wahrscheinlichkeitsdichte

f(x)={\begin{cases}\displaystyle {\frac {k}{x_{\min }}}\left({\frac {x_{\min }}{x}}\right)^{k+1}&x\geq x_{\min }\\0&x<x_{\min }\end{cases}}

besitzt.

Die Wahrscheinlichkeit, mit der die Zufallsvariable $X$ einen Wert kleiner oder gleich $x$ annimmt, errechnet sich damit mit der Verteilungsfunktion:

F(x)=1-\left({\frac {x_{\min }}{x}}\right)^{k}

Dabei ist $k$ ein sogenannter Fitparameter, d.h. er wird an vorliegende Werte (z.B. Stichproben) angepasst. Der Parameter $k$ beschreibt das Größenverhältnis der Zufallswerte in Abhängigkeit von ihrer Häufigkeit.

Damit errechnet sich die Wahrscheinlichkeit, dass die Zufallsvariable $X$ Werte größer $x$ annimmt durch:

{\rm {P}}(X>x)=\left({\frac {x_{\min }}{x}}\right)^{k},~~\forall x>x_{\min }

Eigenschaften

Erwartungswert

Der Erwartungswert ergibt sich zu:

\operatorname {E} (X)={\begin{cases}\displaystyle x_{\min }{\frac {k}{k-1}}&k>1\\\infty &k\leq 1\end{cases}}

.

Varianz

Die Varianz ist angebbar als

\operatorname {Var} (X)={\begin{cases}\displaystyle x_{\min }^{2}\left({\frac {k}{k-2}}-{\frac {k^{2}}{(k-1)^{2}}}\right)=x_{\min }^{2}{\frac {k}{(k-2)(k-1)^{2}}}&k>2\\\infty &k\leq 2\end{cases}}

.

Weitere Momente ergeben sich entsprechend

Standardabweichung

Aus der Varianz ergibt sich für $k>2$ die Standardabweichung

\sigma (X)={\frac {x_{\min }}{k-1}}{\sqrt {\frac {k}{k-2}}}

.

Variationskoeffizient

Aus Erwartungswert und Standardabweichung erhält man für $k>2$ sofort den Variationskoeffizienten

\operatorname {VarK} (X)={\frac {1}{\sqrt {k(k-2)}}}

.

Schiefe

Für die Schiefe erhält man für $k>3$

\operatorname {v} (X)={\frac {\displaystyle {\frac {k}{k-3}}-3{\frac {k^{2}}{(k-2)(k-1)}}+2{\frac {k^{3}}{(k-1)^{3}}}}{\displaystyle \left({\frac {k}{k-2}}-{\frac {k^{2}}{(k-1)^{2}}}\right)^{\frac {3}{2}}}}={\frac {2(1+k)}{k-3}}\,{\sqrt {\frac {k-2}{2}}}

.

Charakteristische Funktion

Die charakteristische Funktion ergibt sich zu: $k(-ix_{\mathrm {min} }t)^{k}\Gamma (-k,-ix_{\mathrm {min} }t)\,$ .

Momenterzeugende Funktion

Die momenterzeugende Funktion ist für die Pareto-Verteilung nicht in geschlossener Form angebbar.

Entropie

Die Entropie ergibt sich zu: $\log \left({\frac {k}{x_{\mathrm {min} }}}\right)-{\frac {1}{k}}-1\!$ .

Zipfsches Gesetz

Das Zipfsche Gesetz ist mathematisch mit der Pareto-Verteilung identisch (x- und y-Achse sind vertauscht). Während die Pareto-Verteilung die Wahrscheinlichkeit bestimmter Zufallswerte betrachtet, fokussiert das Zipfsche Gesetz die Wahrscheinlichkeit, mit der Zufallswerte eine bestimmte Position in der Rangfolge der Häufigkeit einnehmen.

Beziehung zur anderen Verteilungen

Beziehung zur Exponentialverteilung

Wenn $X$ eine Pareto-verteilte Zufallsvariable $\operatorname {Par} (k,1)$ mit den Parametern $k$ und $1$ ist, dann ist $\log {X}$ exponentialverteilt $\operatorname {Exp} (k)$ mit dem Parameter $k$ .

Beziehung zur verschobenen Pareto-Verteilung

Wenn $X$ eine Pareto-verteilte Zufallsvariable ist, dann genügt $Y={\frac {1}{x_{\min }}}({\frac {X}{x_{\min }}}-1)$ einer verschobenen Pareto-Verteilung.

Ungleichverteilungsmaße und das Pareto-Prinzip

Für die Berechnung von Ungleichverteilungsmaßen beschreiben Verteilungen der Form „A zu B“ (A:B) zwei Quantile, wobei die Breite des ersten Quantils der Höhe des zweiten Quantils und die Höhe des ersten Quantils der Breite des zweiten Quantils gleicht. In der Lorenz-Kurve stellt sich dieser Sachverhalt in der Gestalt eines „stehenden“ und eines „liegenden“ Quantils dar. $A$ und $B$ müssen dabei jeweils im Bereich von 0 bis 1 liegen und es gilt: $A+B=1$ . Der Gini-Koeffizient und die Hoover-Ungleichverteilung sind in diesem Fall gleich:

H=G=\left|2A-1\right|=\left|2B-1\right|

A:B=\left({\frac {1+H}{2}}\right):\left({\frac {1-H}{2}}\right)

Für diese Zwei-Quantile-Verteilungen ist dann auch der Theil-Index (ein Entropie-Maß) einfach zu berechnen:

T_{T}=T_{L}=T_{s}=2H\,\operatorname {arctanh} \left(H\right)\,

Das Pareto-Prinzip kann als Merkhilfe für den Wertebereich des Theil-Index dienen. Der Index hat bei einer Gleichverteilung von 0,5:0,5 (50 % zu 50 %) einen Wert von 0 und nimmt bei etwa 0,82:0,18 (82 % zu 18 %) den Wert 1 an^[1]. Das liegt ganz in der Nähe der Verteilung von 80% zu 20%. Oberhalb der Verteilung von 82% zu 18% ist der Theil-Index größer als 1.

Beispiele

Verteilung der Größe deutscher Großstädte

Logarithmische Darstellung der Verteilung

In Bezug auf die Größenverteilung von Städten zeigt die Grafik rechts die Anzahl deutscher Großstädte, die größer sind als die vom Parameter x vorgegebene Bevölkerungszahl. Die doppeltlogarithmische Auftragung lässt erkennen, dass die Verteilung einem Potenzgesetz folgt.

Der Exponent k der kumulativen Darstellung beträgt 1,31. Folglich lautet der Exponent der Dichtefunktion a= k+1 = 2,31, in guter Übereinstimmung mit der Literatur. Das Summieren der Werte bei der kumulativen Darstellung reduziert die Streuung der Messwerte. Um die Dichtefunktion zeichnen zu können, werden die Werte in Intervalle unterteilt und gezählt. Je nach Intervallgröße schwanken die Mittelwerte der Intervalle, oder die Kurve wegen der geringen Anzahl der Intervalle.

Das Pareto-Prinzip kann bei vielen - auch alltäglichen - Fragestellungen beobachtet werden. 20 % der eingesetzten Zeit bringt 80 % der Ergebnisse (siehe auch: Zeitmanagement). In einem durchschnittlichen Haushalt verursachen 20 % der Kostenpositionen 80 % der Kosten. In einer Wohnung weisen 20 % des Teppichs 80 % der Gesamtabnutzung auf. In einem Unternehmen werden 80 % des Umsatzes mit 20 % der Kunden erzielt. 80 % eines Textes werden mit 20 % der Wörter bestritten (z.B. der, die, das usw.).

Viele Verteilungen in der Natur folgen einem Skalengesetz, sehr oft einem Potenzgesetz, also einer Pareto-Verteilung.

Wohlstandsverteilung auf Individuen: siehe oben
Größe von menschlichen Siedlungen: Viele kleine Dörfer mit wenig Einwohnern, die Masse der Menschen wohnt aber in wenigen großen Städten.
Werte im Lager eines Industrieunternehmens: Viele Schrauben etc., die nicht viel kosten, aber wenige sehr teure Zukaufsartikel.
Aufwände bei Vorhaben: 20 % Aufwand bringen 80 % Ergebnis, die restlichen 20 % des Ergebnisses brauchen aber 80 % des gesamten Aufwandes.
75 % des Welthandels finden unter 25 % der Menschen statt.
Ankunftszeiten und Paketgrößen in Netzwerken, insbesondere WWW, da hier Nutzerbedenkzeiten zu beachten sind. ^[2]
In der Informetrie: Lotkas Gesetz
Die Pareto-Verteilung wird in der Versicherungs- und Finanzmathematik zur Modellierung von extremen Ereignissen (z.B. Großschäden, starke Kursveränderungen von Aktien) eingesetzt.
80 % aller Supportanfragen im Internet beziehen sich immer wieder auf die gleichen 20 % (oder weniger) der Problemstellungen.

Literatur

Koch, Richard: Das 80/20-Prinzip. Mehr Erfolg mit weniger Aufwand. Frankfurt/M.; New York, 1998. OT: The 80/20 principle. The secret of achieving more with less, 1997. (Zusammenfassung aus 'Campus Management')

Weblinks

Universität Konstanz - Interaktive Animation
Einfaches Excel Werkzeug für eine Pareto Auswertung

Quellen

Siehe auch

[1] On-Line-Rechner: Ungleichverteilung

[2] ttp://www.cs.bu.edu/faculty/crovella/paper-archive/web-tails.ps

[1]

[2]