Benfordsches Gesetz
Das Benfordsche Gesetz beschreibt allgemein die Verteilung von Ziffern in Zahlen von Zahlenlisten, wie etwa von Einwohnerzahlen von Städten oder Geldbeträgen in der Buchhaltung. 1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und im "American Journal of Mathematics" publiziert. Er erkannte, dass in den benutzten Büchern mit Logarithmustabellen, die Seiten mit Tabellen mit Eins als erster Ziffer deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden waren. Später untersuchte der Physiker Frank Benford die Zahlen auch aus anderen Bereichen.
Warum gilt das Benforsche Gesetz und wann?
Wie man sich in der Literatur und im Web leicht überzeugen kann, sind alle Versuche, das Benfordsche Gesetz in Umgehung des Logarithmus zu erklären, letztlich schwerer zu verstehen als der Logarithmus selbst, den man vermeiden wollte. Ist beispielsweise x aus der Gleichung gesucht, dann findet man: , und das ist der Logarithmus von 2 zur Basis 10.
Die wichtigsten 2 Voraussetzungen für die Gültigkeit des Benfordschen Gesetzes sind:
1. für die Größen, die sich in einer Tabelle zusammenfinden, gilt stochastische Unabhängigkeit
2. die Dimension (=die Anzahl der Stellen vor dem Komma) der Zahlen ist nicht stark beschränkt (Skaleninvarianz).
Die Mantisse (d.s. die Stellen eines Logarithmus nach dem Komma) definiert die Struktur, den ziffernmäßigen Aufbau, einer Zahl, die Positionen vor dem Komma geben lediglich Auskunft über die Position des Kommas, die Dimension der Zahl. So steht die Mantisse 0,09151 für die Zahl 1,23455374, die Mantisse 3,09151 für 1234,55374. Die Struktur der Zahl ist identisch, nur das Komma hat sich um 3 Positionen nach rechts verschoben.
Nun ist es so, daß nicht die Zahlen selbst gleichverteilt sind. Die Natur "denkt" in Zahlenstrukturen und nicht in Zahlenwerten. Es gilt also vielmehr, daß die Mantissen der Zahlen mit wachsender Stichprobe immer mehr einer Gleichverteilung folgen. Das hat zur Konsequenz, daß 30,103 % aller Zahlen mit einer 1 beginnen, denn der Logarithmus von 2 zur Basis 10 ist 0,30103. Das bedeutet aber, daß auf einer Strecke von 10 cm, auf welcher die Logarithmen von 1 bis 10 eingetragen werden, bereits 3,0103 cm = 30,103% von Logarithmen für Zahlen besetzt werden, die eine kleinere Anfangsziffer haben als 2 (also 1). Der Logarithmus von 3 ist 0,47712. Zwischen 4,7712 und 3,0103 cm liegen also alle Zahlen, die mit einer 2 beginnen, das sind 1,7609 cm auf unserer 10-cm-Strecke oder 17,609% der Strecke, usf.
Aus dem oben Dargestellten folgt die überraschende Aussage: 30,103 % der nach oben unbeschränkten Zahlenmenge des Zehnersystems beginnen mit der Anfangsziffer 1; nur noch 17,609% beginnen mit einer 2, usf. (s.u. "Mathematische Sicht"). Eine genügend große zufällige Stichprobe aus dieser Zahlenmenge muß die Proportionalitäten dieser Zahlenmenge hinreichend genau abbilden. Wo immer die Stichprobe dies nicht tut, war die Stichprobe nicht hinreichend zufällig, und es gibt zumindest 2 denkbare Ursachen dafür: Entweder wurde die Zufälligkeit vorsätzlich - z.B. durch Beeinflussung von Daten - gestört (Signifikanz) oder es gibt andere Gründe, warum das Benfordsche Gesetz für diese Zahlenmenge ausnahmsweise nicht gilt; zumeist ist in einem solchen Fall die Zahlenmenge nach oben oder in einem Teilbereich zu stark beschränkt (Beispiele: Telefonnummern werden nach einem System vergeben, haben in der Mehrzahl 7 bis 8 Ziffern; Rechnungsbeträge im Großhandel können bei häufigen Umsätzen bei einem Spezialangebot, z.B. "20 kg Lack + 1 Pinsel zu 99,90 EUR", mit einem konstanten Preis abnorm viele Anfangsziffern in dieser Preiskategorie aufweisen, u.a.)
Mathematische Sicht
Benfords Gesetz besagt, dass die führenden Ziffern n (n = 1...9) mit folgenden Wahrscheinlichkeiten erscheinen:
log10(n+1) - log10(n), oder
führende Ziffer | Wahrscheinlichkeit |
---|---|
1 | 30.1 % |
2 | 17.6 % |
3 | 12.5 % |
4 | 9.7 % |
5 | 7.9 % |
6 | 6.7 % |
7 | 5.8 % |
8 | 5.1 % |
9 | 4.6 % |
Anwendungen
In der Wirtschaft
Zur Aufdeckung von Betrug bei der Bilanzerstellung, der Fälschung in Abrechnungen, generell bei der Kontrolle von Unregelmäßigkeiten im Rechnungswesen. Mit Hilfe des Benfordschen Gesetzes wurde das bemerkenswert "kreative" Rechnungswesen bei Enron und World.com aufgedeckt, durch welches das Management die Anleger um ihre Einlagen betrogen hatte (---> Wirtschaftskriminalität). Heute benutzen nicht nur Wirtschaftsprüfer, sondern auch Finanzämter Methoden, die auf dem Benfordschen Gesetz beruhen. Diese Methoden stellen einen wichtigen Teil der mathematisch-statistischen Methoden dar, die seit mehreren Jahren zur Aufdeckung von Bilanzfälschung, Steuer- und Investorenbetrug und allgemein Datenbetrug in Verwendung sind. Der Umstand, daß in Unternehmen sehr häufig die Logarithmen der Zahlenwerte bestimmten Idealverteilungen (Gleichverteilung, Normalverteilung) folgen und nicht etwa die Werte selbst, führte in der Zwischenzeit zur Modifikation diverser Lehrmeinungen und Theorien.
In der Forschung
Das Benfordsche Gesetz ermöglicht die Aufdeckung konsequenter Datenfälschung auch in der Wissenschaft. Es waren schließlich Messwerte aus der Natur, die zum Wissen über die Existenz des Benfordschen Gesetzes führten. Dessen ungeachtet ist das Benfordsche Gesetz nicht allen Wissenschaftern bekannt, wie Wissenschaftsskandale in periodischen Zeitabständen belegen.
Datenfälschung
Die Erstellung gefälschter und dennoch benford-adäquater großvolumiger Datenreihen ist noch viel mühsamer als man auf den ersten Blick vermutet, zumal für alle Daten das Benfordsche Gesetz nicht nur für die Anfangsziffer, sondern auch für die Folgeziffern (nach modifizierten Regeln) gelten muß; ferner müßte noch einer Reihe anderer stochastischer Gesetzmäßigkeiten, die dem Fälscher allesamt bekannt sein müßten, Rechnung getragen werden; die Daten folgen stets und simultan noch zahlreichen weiteren statistischen Gesetzmäßigkeiten. All diese Nebenbedingungen unter einen Hut zu bringen ist kompliziert. Gelänge andererseits das "Hintrimmen" der Daten allzu genau, könnte die Fälschung der Daten wiederum sehr leicht erkannt werden. Am besten ist es daher, man überläßt die Erzeugung adäquater Daten nicht dem PC, sondern dem bei ehrlicher Arbeit zuverlässig wirkenden Zufall.
Signifkanz
Wie groß die Abweichungen der beobachteten Verteilung von der theoretisch zu erwartenden Verteilung mindestens sein müssen, damit ein begründeter Verdacht auf Manipulation als erhärtet angesehen werden kann, wird mit Hilfe mathematisch-statistischer Methoden (z.B. dem Chi-Quadrat-Test oder dem Kolmogorow-Smirnow-Test) bestimmt. Für den Chi²-Test sollte beim Test von überzufälligen Abweichungen bei der Anfangsziffer eine Stichprobe von 109 Zahlen genügen ( ist erfüllt für alle ).
Dass sich gerade Saldenlisten, Rechnungslisten und ähnliche Aufstellungen gemäß dem Benfordschen Gesetz verhalten, liegt an dem Umstand, dass es sich bei der Mehrzahl solcher Zahlenreihen um Sammlungen von Zahlen handelt, die die unterschiedlichsten arithmetischen Prozesse durchlaufen haben und sich daher wie Quasi-Zufallszahlen verhalten. Läßt man den geschäftlichen und buchungstechnischen Prozessen freien Lauf, dann wirken die Gesetze des Zufalls und mithin auch das Benfordsche Gesetz. Wird allerdings im Verlauf einer Rechnungsperiode konsequent Einfluß auf diese Zahlen genommen, indem man häufig welche schönt, bestimmte Zahlen verschwinden läßt oder welche hinzu erfindet, ja wegen gegebener Kompetenzbeschränkungen sogar Prozesse manipuliert, dann wird der Zufall merklich gestört. Diese Störungen manifestieren sich in signifikanten Abweichungen von der theoretisch zu erwartenden Ziffernverteilung.
Beispiel: Wenn ein Angestellter Bestellungen bis zu 1.000 EURO ohne Genehmigung der Geschäftsleitung durchführen darf und er bei Vorliegen von Angeboten höher als 1.000 EUR die Bestellungen konsequent "splittet", um sich die Mühen der Genehmigung zu ersparen, dann finden sich in der Benford-Verteilung der Bestellbeträge signifikante Abweichungen von der theoretischen Erwartung.
Dieses Beispiel zeigt, daß statistische Methoden einzelne Unregelmäßigkeiten nicht aufdecken können. Eine gewisse Konsequenz der Manipulationen ist erforderlich. Je größer die Stichprobe ist, umso empfindlicher reagiert ein Signifikanztests im allgemeinen auf Manipulationen.
Ein Test auf signifikante Abweichungen
- Beschreibung: Benford-Chi-Quadrat.png
- Quelle: vom Autor des Unterartikels am 18.3.2005 erstellt
Die Verwendung dieses Bildes oder seiner Inhalte ist frei. Es wird aber gebeten, auf diesen Link zu veweisen.
- Fotograf oder Zeichner: Günther Pökl
Tiefergehende Benford-Analysen
Liegen sehr lange Listen mit mehreren tausend Zahlen vor, kann man einen Benford-Test nicht nur mit der Anfangsziffer durchführen. Eine solche Datenfülle erlaubt es, auch die 2., die 3., die 1.+ 2., eventuell sogar die 1.+ 2.+ 3. Ziffer simultan zu überprüfen. Für diese Prüfungen existieren ebenfalls Benford-Verteilungen, wenngleich sie auch um vieles umfangreicher sind. Stets gilt die Regel, daß die Ziffern umso mehr einer Gleichverteilung folgen, je kleiner ihr Stellenwert ist. Cent-Beträge folgen nahezu exakt einer Gleichverteilung, wodurch sich bei Cent-Beträgen der logarithmische Ansatz im allgemeinen erübrigt. Bei sehr kleinen Währungen werden Tests auf Gleichverteilung der Scheidemünzenbeträge unscharf, da in der Praxis sehr häufig gerundet wird. Große Währungen (US-Dollar, Pfund-Sterling, Euro) erlauben solche Tests aber zumeist schon.