Pareto-Verteilung

Die Häufigkeit der Einwohnerzahlen deutscher Städte (Histogramm in gelb) kann gut durch eine Pareto-Verteilung (blau) beschrieben werden

Die Pareto-Verteilung, benannt nach dem italienischen Ökonom Vilfredo Pareto, ist eine stetige Wahrscheinlichkeitsverteilung auf einem rechtsseitig unendlichen Intervall . Sie ist skaleninvariant und genügt einem Potenzgesetz. Für kleine Exponenten gehört sie zu den endlastigen Verteilungen.

Die Verteilung wurde zunächst zur Beschreibung der Einkommensverteilung Italiens verwendet.[1] Pareto-Verteilungen finden sich charakteristischerweise dort, wo sich zufällige, positive Werte über mehrere Größenordnungen erstrecken und durch das Einwirken vieler unabhängiger Faktoren zustande kommen. Verteilungen mit ähnlichen Eigenschaften sind die Zipfverteilung und das Benfordsche Gesetz.

Begriffsgeschichte

Im zweiten Band des Cours d’économie politique von Vilfredo Pareto (1897)[1] legt dieser dar, dass die Anzahl der Personen, welche innerhalb eines Staates ein höheres Einkommen als ein Schwellenwert besitzen, näherungsweise proportional zu ist, wobei der Parameter länderübergreifend etwa 1,5 beträgt. Diese Vorgabe definiert bis auf eine Skalierung die nach Pareto benannte Wahrscheinlichkeitsverteilung (über die kumulierte Verteilungsfunktion). Auch zahlreiche andere empirische Verteilungen lassen sich gut als Pareto-Verteilung beschreiben, zum Beispiel Stadtgrößen oder Schadenshöhen in der Versicherungsmathematik.[2]

Definition

Pareto-Wahrscheinlichkeitsdichte f(x) mit xmin = 1
Kumulative Verteilungsfunktion F(x)

Eine stetige Zufallsvariable heißt Pareto-verteilt mit den Parametern und , wenn sie die Wahrscheinlichkeitsdichte

besitzt.

Dabei ist ein Parameter, der den Mindestwert der Verteilung beschreibt. Dieser ist auch gleichzeitig der Modus der Verteilung, also die Maximalstelle der Wahrscheinlichkeitsdichte. Mit steigendem Abstand zwischen und sinkt die Wahrscheinlichkeit, dass den Wert annimmt. Der Abstand zwischen den beiden Werten wird als Quotient, das heißt als Verhältnis zwischen beiden Größen, bestimmt.

ist ein Parameter, der das Größenverhältnis der Zufallswerte in Abhängigkeit von ihrer Häufigkeit beschreibt. Mit wird der Quotient potenziert. Bei einem größeren verläuft die Kurve deutlich steiler, das heißt, die Zufallsvariable nimmt große Werte mit geringerer Wahrscheinlichkeit an.

Die Wahrscheinlichkeit, mit der die Zufallsvariable einen Wert kleiner oder gleich annimmt, errechnet sich damit mit der Verteilungsfunktion für alle :

.

Damit errechnet sich die Wahrscheinlichkeit, dass die Zufallsvariable Werte größer als annimmt, durch:

.

Die Verteilung gehört somit zu den endlastigen Verteilungen.

Eigenschaften

Erwartungswert

Der Erwartungswert ergibt sich zu

Quantile

Median

Der Median ergibt sich zu

Überprüfung des Paretoprinzips

Analog erhält man für das beim Paretoprinzip gefragte 4. Quintil

.

Der Erwartungswert , eingeschränkt auf Werte größer als das 4. Quintil, genügt für der Gleichung

.

Für , den von Pareto als typisch angesehenen Wert, ergibt sich ein Erwartungswert, der , d. h. ca. 58 %, des gesamten Erwartungswertes ausmacht. Würde das Einkommen einer Bevölkerung also einer Pareto-Verteilung mit dem Parameter 1,5 entsprechen, so würden die 20 % mit den höchsten Einkommen nur 58 % des gesamten Einkommens verdienen – nicht 80 %, wie es das Paretoprinzip suggeriert. Dagegen gilt für die 80-%-20-%-Regel.

Varianz

Die Varianz ergibt sich zu

Standardabweichung

Aus der Varianz ergibt sich für die Standardabweichung

Variationskoeffizient

Aus Erwartungswert und Standardabweichung erhält man für sofort den Variationskoeffizienten

Schiefe

Für die Schiefe erhält man für

Für ist die Pareto-Verteilung rechtsschief entsprechend der Definition über das zentrale Moment 3. Ordnung. Für divergiert das 3. Moment, auch wenn die Verteilung wie eine typische rechtsschiefe Verteilung aussieht. Für ist der Median stets kleiner als der Erwartungswert, im Sinne der Pearsonschen Definition ist die Verteilung rechtsschief; für sind die Quantilskoeffizienten positiv, d. h. auch im Sinne der Definition über die Quantile ist die Verteilung rechtsschief.

Momente

Allgemein erhält man für das -te Moment

Charakteristische Funktion

Die charakteristische Funktion ergibt sich zu:

Dabei ist die unvollständige Gammafunktion.

Momenterzeugende Funktion

Die momenterzeugende Funktion ist für die Pareto-Verteilung nicht in geschlossener Form angebbar.

Entropie

Die Entropie ergibt sich zu: .

Zipfsches Gesetz

Das Zipfsche Gesetz ist mathematisch mit der Pareto-Verteilung identisch (- und -Achse sind vertauscht). Während die Pareto-Verteilung die Wahrscheinlichkeit bestimmter Zufallswerte betrachtet, fokussiert das Zipfsche Gesetz die Wahrscheinlichkeit, mit der Zufallswerte eine bestimmte Position in der Rangfolge der Häufigkeit einnehmen.

Beziehung zu anderen Verteilungen

Beziehung zur Exponentialverteilung

Wenn eine Pareto-verteilte Zufallsvariable mit den Parametern und ist, dann ist exponentialverteilt mit dem Parameter .

Beziehung zur verschobenen Pareto-Verteilung

Wenn eine Pareto-verteilte Zufallsvariable ist, dann genügt einer verschobenen Pareto-Verteilung.

Ungleichverteilungsmaße und das Pareto-Prinzip

Lorenz-Kurve der Masse kleiner Städte und ihrer Einwohnerzahl. Die 80 % kleinsten Städte stellen zusammen nur 38 % der Gesamtbevölkerung. Der Theil-Index beträgt 0,8329315.

Da die (Wahrscheinlichkeitsdichte der) Pareto-Verteilung ein einzelnes Maximum beim kleinsten Wert hat, weisen Pareto-verteilte Größen das aus dem Pareto-Prinzip (auch 80-zu-20-Regel) bekannte Phänomen der Ungleichverteilung auf: Kleinere Werte sind recht häufig, große Werte hingegen sehr selten. Wie stark dieser Effekt ausgeprägt ist, hängt vom Parameter ab.

Im Städte-Beispiel (siehe Abbildung in der Einleitung) tragen wenige Großstädte überproportional zur Gesamtbevölkerung bei, während eine sehr große Zahl kleiner Städte nur wenige Einwohner stellt.

Zur Quantifizierung dieses Phänomens existieren verschiedene Ungleichverteilungsmaße. Für die Berechnung von Ungleichverteilungsmaßen beschreiben Verteilungen der Form „ zu zwei Quantile, wobei die Breite des ersten Quantils der Höhe des zweiten Quantils und die Höhe des ersten Quantils der Breite des zweiten Quantils gleicht. Ein Beispiel für diese Art, Verteilungen darzustellen, ist das oft zitierte „80-20-Prinzip“. Es gilt beispielsweise, wenn 80 % einer Gruppe über 20 % der Ressourcen der Gruppe verfügen, und 20 % dieser Gruppe 80 % der Ressourcen nutzen können.

In der Lorenz-Kurve stellt sich dieser Sachverhalt in der Gestalt eines „stehenden“ und eines „liegenden“ Quantils dar. und müssen dabei jeweils im Bereich von 0 bis 1 liegen und es gilt: . Der Gini-Koeffizient und die Hoover-Ungleichverteilung sind in diesem Fall gleich:

Für eine 80:20-Verteilung ergibt sich somit ein Gini-Koeffizient bzw. ein Hoover-Koeffizient von 0,6 bzw. 60 %.

Für diese Zwei-Quantile-Verteilungen ist dann auch der Theil-Index (ein Entropie-Maß) einfach zu berechnen:

Das Paretoprinzip kann als Merkhilfe für den Wertebereich des Theil-Index dienen. Der Index hat bei einer Gleichverteilung von 0,5:0,5 (50 % zu 50 %) einen Wert von 0 und nimmt bei etwa 0,82:0,18 (82 % zu 18 %) den Wert 1 an.[3] Das liegt ganz in der Nähe der Verteilung von 80 % zu 20 %. Oberhalb der Verteilung von 82 % zu 18 % ist der Theil-Index größer als 1.

Erkennen von Pareto-Verteilungen

Verteilung der Einwohnerzahl deutscher Städte und Gemeinden

Ob eine Verteilung eine Pareto-Verteilung ist, kann man grafisch anhand doppelt-logarithmischer Darstellungen der Verteilungen abschätzen.

Die Wahrscheinlichkeitsdichte der Pareto-Verteilung kann man als Potenzgesetz schreiben:

Auch kann man in die Form bringen:

Der (einfach) logarithmierte Graph solcher Potenzgesetze ist

Nach Logarithmieren der -Achse mit (d. h., der tatsächliche -Wert beträgt , häufig wird die Achse jedoch direkt mit den -Werten beschriftet) erhält man

was eine Gerade mit Anstieg ist.

Doppeltlogarithmische Darstellung der Verteilung

Im nebenstehenden Diagramm ist für das Städtebeispiel doppelt-logarithmisch dargestellt. Man erkennt gut, dass der Graph über weite Teile tatsächlich gerade verläuft, mit einem Anstieg , woraus sich der Parameter ergibt.

Folglich lautet der Exponent der Dichtefunktion , in guter Übereinstimmung mit der Literatur.

Für die Darstellung wurde verwendet, weil es ein kumulatives Maß ist, das durch Aufsummierung (in der Theorie: Integrieren) vieler Einzelwerte entsteht, wodurch die Streuung einzelner Werte weniger stark ins Gewicht fällt. Bei Verwendung des Histogramms hingegen ist eine Summierung vieler Werte nur mit einer verringerten Anzahl der Intervalle zu realisieren, wodurch die Verteilung unrealistisch grob würde.

Literatur

  • Rainer Schlittgen: Einführung in die Statistik. Analyse und Modellierung von Daten. 10., durchgesehene Auflage. Oldenbourg Wissenschaftsverlag, München u. a. 2003, ISBN 3-486-27446-5, S. 231, (Auszug in der Google-Buchsuche).
  • Karl Mosler, Friedrich Schmid: Wahrscheinlichkeitsrechnung und schließende Statistik. 2., verbesserte Auflage. Springer, Berlin u. a. 2006, ISBN 3-540-27787-0, S. 99, (Auszug in der Google-Buchsuche).
  • Vilfredo Pareto: Cours d’Économie Politique. 2 Bände. Rouge, Lausanne 1896–1897. Band 1 in Originalsprache. Band 2 in Originalsprache.
Commons: Pareto distribution – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. a b Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino, Librairie Droz, Geneva, 1964, pp. 299–345. archiviertes Originalwerk
  2. Frederik M. Dekking, Cornelis Kraaikamp, Hendrik P. Lopuhaä, Ludolf E. Meester: A modern introduction to probability and statistics. Understanding why and how. Springer, London 2005, ISBN 1-85233-896-2, S. 63. (Auszug in der Google-Buchsuche).
  3. 17.6,82.4 On-Line-Rechner: Ungleichverteilung, abgerufen am 29. Juli 2018.

Auf dieser Seite verwendete Medien

CDF of Pareto Distribution.svg
Autor/Urheber: Sam Mason, Lizenz: CC BY-SA 3.0
Designed to be an SVG replacement for Pareto distributionCDF.png. Generated in R and made somewhat more minimal than the original but have titled axes
Source Code
pal <- c("black","tomato", "royalblue", "darkgreen")
svg("ppareto.svg", 4, 4, family="Myriad Pro")
par0 <- par(mar=c(4,4,0,0)+0.5)
plot.new(); plot.window(c(0,5), c(0,1))
lines(c(-1e6,1,1,1e6), c(0,0,1,0), col=pal[[1]]) # hack to make Infinity visible
curve(VGAM::ppareto(x, 1, 3), 1, 6, add=T, n=201, col=pal[[2]])
curve(VGAM::ppareto(x, 1, 2), 1, 6, add=T, n=201, col=pal[[3]])
curve(VGAM::ppareto(x, 1, 1), 1, 6, add=T, n=201, col=pal[[4]])
axis(1); axis(2); box(bty="l")
title(xlab="x", ylab=expression(Pr(paste(X," \u2264 ",x)))) # work around bug in R by using unicode character directly
legend("bottomright", expression(kappa==infinity,kappa==3,kappa==2,kappa==1), lty=1, col=pal, bty="n", inset=0.1)
par(par0)
dev.off()
Powercitieslnrp2.png
Autor/Urheber: Die Autorenschaft wurde nicht in einer maschinell lesbaren Form angegeben. Es wird Androl als Autor angenommen (basierend auf den Rechteinhaber-Angaben)., Lizenz: CC BY-SA 2.5
genauere Ausarbeitung von File:Powercitieslnrp.png
Powercitiesrp2.png
Autor/Urheber: Die Autorenschaft wurde nicht in einer maschinell lesbaren Form angegeben. Es wird Androl als Autor angenommen (basierend auf den Rechteinhaber-Angaben)., Lizenz: CC BY-SA 2.5
genauere Ausarbeitung von File:Powercitiesrp.png
PDF of Pareto Distribution.svg
Autor/Urheber: Sam Mason, Lizenz: CC BY-SA 3.0
Designed to be an SVG version of Pareto_distributionPDF.png. It's generated in R and made slightly more minimal that the original, but otherwise the same.
Source Code
pal <- c("black", "tomato", "royalblue", "darkgreen")
svg("dpareto.svg", 4, 4, family="Myriad Pro")
par0 <- par(mar=c(4,4,0,0)+0.5)
plot.new(); plot.window(c(0,5), c(0,3))
lines(c(1,1,1e6), c(1e6,0,0), col=pal[[1]]) # hack to make Infinity visible
curve(VGAM::dpareto(x, 1, 3), exp(1e-10), 6, add=T, n=201, col=pal[[2]])
curve(VGAM::dpareto(x, 1, 2), exp(1e-10), 6, add=T, n=201, col=pal[[3]])
curve(VGAM::dpareto(x, 1, 1), exp(1e-10), 6, add=T, n=201, col=pal[[4]])
points(c(1,1,1),3:1, col=pal[-1], pch=20)
axis(1); axis(2); box(bty="l")
title(xlab="x", ylab="Density")
legend("topright", expression(kappa==infinity,kappa==3,kappa==2,kappa==1), lty=1, col=pal, bty="n", inset=0.1)
par(par0)
dev.off()
German Cities Pareto Density - de.svg
Autor/Urheber: Accountalive, Lizenz: CC0
Rohdaten von File:Powercitiesrp.png, visualisiert als Histogramm mit passender Pareto-Verteilung. (Wahrscheinlichkeitsdichte)
Pareto-principle-population-q-q-de.svg
Autor/Urheber: Accountalive, Lizenz: CC0
Q-Q-Plot der Einwohnerverteilung auf deutsche Städte. Die 80% kleinsten Städte stellen nur 38% der Bevölkerung.