Benfordsches Gesetz
Das Benfordsche Gesetz beschreibt die Verteilung von Anfangsziffern von Zahlen langer Zahlenlisten, wie etwa Einwohnerzahlen von Städten oder Geldbeträgen in der Buchhaltung. 1881 wurde es von dem Mathematiker Simon Newcomb entdeckt und im "American Journal of Mathematics" publiziert. Er erkannte, dass in den benutzten Büchern mit Logarithmustabellen, die Seiten mit Tabellen mit Eins als erster Ziffer deutlich schmutziger waren als die anderen Seiten, weil sie anscheinend öfter benutzt worden waren. Später untersuchte der Physiker Frank Benford daraufhin die Zahlen aus ganz verschiedenen Bereichen.
Eine mögliche Interpretation ist, dass kleinere Strukturen häufiger vorkommen als große: es gibt mehr Pfützen als Teiche und mehr Seen als Ozeane.
Warum gilt das Benforsche Gesetz und wann?
Die wichtigsten 2 Voraussetzungen für die Gültigkeit des Benfordschen Gesetzes sind:
* für die Größen, die sich in einer Tabelle zusammenfinden, gilt stochastische Unabhängigkeit * die Dimension (=die Anzahl der Stellen vor dem Komma) der Zahlen ist nicht stark beschränkt. Letztere Eigenschaft nennt man Skaleninvarianz.
Die Mantisse (d.s. die Stellen eines Logarithmus nach dem Komma) definiert die Struktur, den ziffernmäßigen Aufbau, einer Zahl, die Positionen vor dem Komma geben lediglich Auskunft über die Position des Kommas, die Dimension der Zahl. So steht die Mantisse 0,09151 für die Zahl 1,23455374, die Mantisse 3,09151 für 1234,55374. Die Struktur der Zahl ist identisch, nur das Komma hat sich um 3 Positionen nach rechts verschoben.
Nun ist es so, daß nicht die Zahlen selbst gleichverteilt sind. Es gilt vielmehr, daß die Mantissen der Zahlen mit wachsender Anzahl der Zahlen immer mehr einer Gleichverteilung folgen. Das hat zur Konsequenz, daß 30,103 % aller Zahlen mit einer 1 beginnen, denn der Logarithmus von 2 zur Basis 10 ist 0,30103. Das bedeutet ja, daß auf einer Strecke von 10 cm, auf welcher die Logarithmen von 1 bis 10 eingetragen werden, bereits 3,0103 cm = 30,103% von Logarithmen für Zahlen besetzt werden, die eine kleinere Anfangsziffer haben als 2 (also 1). Der Logarithmus von 3 ist 0,47712. Zwischen 4,7712 und 3,0103 cm liegen also alle Zahlen, die mit einer 2 beginnen, das sind 1,7609 cm auf unserer 10-cm-Strecke oder 17,609% der Strecke, usf.
Somit kann man sagen: 30,103 % der nach oben unbeschränkten Zahlenmenge des Zehnersystems beginnen mit der Anfangsziffer 1; 17,609% mit einer 2, usf. Eine genügend große zufällige Stichprobe aus dieser Zahlenmenge wird die Proportionalitäten dieser Zahlenmenge hinreichend genau abbilden. Wo immer die Stichprobe dies nicht tut, war die Stichprobe nicht hinreichend zufällig, und es gibt zumindest 2 denkbare Ursachen dafür: Entweder wurde die Zufälligkeit vorsätzlich gestört (Signifikanz) oder es gibt spezielle Gründe, warum das Benfordsche Gesetz für die Zahlenmenge ausnahmsweise nicht gilt; zumeist ist die Zahlenmenge nach oben oder in einem Teilbereich zu stark beschränkt (Beispiele: Telefonnummern werden nach einem System vergeben, haben in der Mehrzahl 7 bis 8 Ziffern; Rechnungsbeträge im Großhandel können bei hohen Umsätzen bei einem Spezialpaket mit einem konstanten Preis abnorm viele Anfangsziffern in dieser Preiskategorie aufweisen, u.a.)
Mathematische Sicht
Benfords Gesetz sagt, dass die führende Ziffer n (n = 1...9) erscheint mit einer Wahrscheinlichkeit
log10(n+1) - log10(n), oder
führende Ziffer | Wahrscheinlichkeit |
---|---|
1 | 30.1 % |
2 | 17.6 % |
3 | 12.5 % |
4 | 9.7 % |
5 | 7.9 % |
6 | 6.7 % |
7 | 5.8 % |
8 | 5.1 % |
9 | 4.6 % |
Anwendungen
In der Wirtschaft
Zur Aufdeckung von Betrügereien bei der Bilanzerstellung, bei Fälschungen in Reisekostenabrechnungen, generell bei der Kontrolle von Unregelmäßigkeiten im Rechnungswesen. Mit Hilfe des Benfordschen Gesetzes wurde das bemerkenswert "kreative" Rechnungswesen bei Enron und World.com aufgedeckt, durch welches das Management viele Anleger um ihre Einlagen betrogen hatte. Heute benutzen auch Finanzämter und Wirtschaftsprüfer Methoden, die auf dem Benfordschen Gesetz beruhen. Diese Methoden stellen einen wichtigen Teil der mathematisch-statistischen Methoden dar, die seit mehreren Jahren zur Aufdeckung von Bilanzfälschung, Steuer- und Investorenbetrug in Verwendung sind. Der Umstand, daß in Unternehmen sehr häufig die Logarithmen der Zahlenwerte bestimmten Idealverteilungen (Gleichverteilung, Normalverteilung) folgen und nicht etwa die Werte selbst, führte in der Zwischenzeit zur Teilrevision verschiedener Lehrmeinungen und Theorien.
In der Forschung
Das Benfordsche Gesetz ermöglicht die Aufdeckung konsequenter Datenfälschung bei Arbeiten von Wissenschaftern, die das Benfordsche Gesetz entweder nicht kennen oder es nicht erstnehmen und daher ihre Daten nicht so fälschen, dass sie dem Benfordschen Gesetz genügen.
Datenfälschung
Die Erstellung gefälschter und dennoch benford-adäquater großvolumiger Datenreihen ist mühsamer als man auf den ersten Blick vermutet, zumal für alle Daten das Benfordsche Gesetz nicht nur für die Anfangsziffer, sondern auch für die Folgeziffern (nach modifizierten Regeln) gelten muß; ferner müßte noch einer Reihe anderer stochastischer Gesetzmäßigkeiten, die der Fälscher allesamt kennen müßte, Rechnung getragen werden; die Daten folgen zumeist noch simultan zahlreichen weiteren Verteilungsregeln. All das unter einen Hut zu bringen ist kompliziert. Gelänge andererseits das Hintrimmen der Daten allzu genau, kann die Fälschung der Daten wiederum relativ leicht erkannt werden. Am besten ist es, man überläßt die zuverlässige Erzeugung adäquater Daten statt einem PC dem bei ehrlicher Arbeit stets wirkenden Zufall.
Signifkanz
Wie groß die Abweichungen der beobachteten Verteilung von der theoretisch zu erwartenden Verteilung mindestens sein müssen, damit ein begründeter Verdacht auf Manipulation als erhärtet angesehen werden kann, wird mit Hilfe anderer mathematisch-statistischer Methoden (z.B. dem Chi-Quadrat-Test oder dem Kolmogorow-Smirnow-Test) bestimmt.
Dass gerade Saldenlisten, Rechnungslisten und ähnliche Aufstellungen die Bedingungen für den Benford-Test erfüllen, liegt an dem Umstand, dass es sich bei der Mehrzahl solcher Zahlenreihen um Sammlungen von Zahlen handelt, die die unterschiedlichsten arithmetischen Prozesse durchlaufen haben und sich daher wie in einer Quasi-Zufallszahlentabelle in einer Liste zusammenfinden. Läßt man den geschäftlichen und buchungstechnischen Prozessen freien Lauf, dann wirken die Gesetze des Zufalls und mithin auch das Benfordsche Gesetz. Nimmt man allerdings im Verlauf einer Rechnungsperiode konsequent Einfluß auf diese Zahlen, indem man häufig welche schönt, Teile der Zahlen verschwinden läßt oder welche hinzu erfindet, oder wegen gegebener Ober- oder Untergrenzen sogar Prozesse manipuliert, dann wird der Zufall gestört. Diese Störungen manifestieren sich in signifikanten Abweichungen von der theoretisch zu erwarteten Ziffernverteilung.
Beispiel: Wenn ein Angestellter bis zu 1.000 EURO ohne Genehmigung der Geschäftsleitung bestellen darf und er bei Vorliegen eines Angebotes höher als 1.000 EUR die Bestellung konsequent "splittet", um sich die Mühen der Genehmigung zu ersparen, dann findet sich in der Benford-Verteilung der Bestellbeträge eine signifikante Abweichung von der theoretischen Erwartung.
Dieses Beispiel zeigt, daß statistische Methoden einzelne Unregelmäßigkeiten nicht aufdecken können. Eine gewisse Konsequenz der Manipulationen ist erforderlich. Immer größere Stichproben erlauben die Aufdeckung immer geringfügigerer Manipulationen.
Tiefergehende Benford-Analysen
Liegen sehr lange Listen mit mehreren tausend Zahlen vor, kann man einen Benford-Test nicht nur mit der Anfangsziffer durchführen. Eine solche Datenfülle erlaubt es, auch die 2., die 3., die 1.+ 2., eventuell sogar die 1.+ 2.+ 3. Ziffer simultan zu überprüfen. Für diese Prüfungen existieren ebenfalls Benford-Verteilungen, wenngleich sie auch etwas umfangreicher sind. Allgemein gilt aber die Regel, daß die Ziffern umso mehr einer Gleichverteilung folgen, je kleiner ihr Stellenwert ist. Cent-Beträge folgen nahezu exakt einer Gleichverteilung, wodurch sich bei Cent-Beträgen der logarithmische Ansatz erübrigt. Bei sehr kleinen Währungen werden Tests auf Gleichverteilung der Scheidemünzenbeträge unscharf, da in der Praxis sehr häufig gerundet wird. Große Währungen (US-Dollar, Pfund-Sterling, Euro) erlauben solche Tests aber zumeist schon.