Zum Inhalt springen

Benfordsches Gesetz

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 7. April 2005 um 05:28 Uhr durch FlaBot (Diskussion | Beiträge) (robot Ändere:it). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Das Benfordsche Gesetz zählt zu den universellsten Verteilungsgesetzen der Statistik. Es beschreibt eine fundamentale Gesetzmäßigkeit der Verteilung von Ziffern in Zahlen von Zahlenlisten, seien es Einwohnerzahlen von Städten oder Geldbeträge in der Buchhaltung, Listen von Naturkonstanten oder Ergebnisse wissenschaftlicher Beobachtungen.

1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und im "American Journal of Mathematics" publiziert. Er soll bemerkt haben, dass in den benutzten Büchern mit Logarithmustabellen, die Seiten mit Tabellen mit Eins als erster Ziffer deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden seien. Die Abhandlung Newcombs war schon in Vergessenheit geraten, als der Physiker Frank Benford diese Gesetzmäßigkeit wieder entdeckte und über sie neu publizierte. Seither wird diese Gesetzmäßigkeit nach ihm benannt. Bis vor wenigen Jahren war sie nicht einmal allen Statistikern bekannt. Da das Benfordsche Gesetz aber schon zahlreiche praktische Probleme hat lösen helfen, wächst der Bekanntheitsgrad dieser frappierenden Gesetzmäßigkeit rasch.

Gültigkeitsbedingungen des Benfordschen Gesetzes

Die wichtigsten 2 Voraussetzungen für die Gültigkeit des Benfordschen Gesetzes sind:

  1. für die Größen, die sich in einer Tabelle zusammenfinden, gilt stochastische Unabhängigkeit
  2. die Dimension (=die Anzahl der Stellen vor dem Komma) der Zahlen ist nicht stark beschränkt (Skaleninvarianz)

Wie man sich in der Literatur und im Web leicht überzeugen kann, sind alle Versuche, das Benfordsche Gesetz in Umgehung des Logarithmus zu erklären, letztlich schwerer zu begreifen als der Logarithmus, der gerne umgangen wird. Ist beispielsweise x aus der Gleichung gesucht, dann findet man: , und das ist der Logarithmus von 2 zur Basis 10. Man sagt auch .

Die Mantisse (d.s. die Stellen eines Logarithmus nach dem Komma) definiert die Struktur, den ziffernmäßigen Aufbau, einer Zahl, die Positionen vor dem Komma geben lediglich Auskunft über die Position des Kommas, die Dimension der Zahl. So steht die Mantisse 0,09151 für die Zahl 1,23455374 ( 10^0,09151 = 1,23455374 ), die Mantisse 3,09151 für 1.234,55374 ( 10^3,09151 = 1.234,55374 ). Die Struktur der Zahl ist identisch, nur das Komma hat sich um 3 Positionen nach rechts verschoben.

Zur Skaleninvarianz

Mit einer Konstanten multiplizierte Datensätze mit benfordverteilten Anfangsziffern sind wiederum benfordverteilt. Die Multiplikation der Zahlen mit einer Konstanten entspricht der Addition einer Konstanten zu den Logarithmen. Auch die Umwandlung solcher benfordverteilter Datensätze in ein anderes Zahlensystem (z.B. ins binäre oder ins hexadezimale) erzeugt wiederum benfordverteilte Datensätze.

Gleichverteilung der Strukturen

Nicht die Zahlen selbst sind gleichverteilt. Vielmehr folgen die Mantissen der Zahlen mit wachsender Stichprobe immer mehr einer Gleichverteilung. Die Natur "denkt" offenbar in Zahlenstrukturen und nicht in Zahlenwerten. Das hat aber zur Konsequenz, daß 30,103 % aller Zahlen mit einer 1 beginnen, denn der Logarithmus von 2 zur Basis 10 ist 0,30103; und das bedeutet, daß auf einer Strecke von 10 cm, auf welcher die Logarithmen von 1 bis 10 eingetragen werden, bereits 3,0103 cm = 30,103% von Logarithmen für Zahlen besetzt werden, die eine kleinere Anfangsziffer haben als 2 (also 1). Der Logarithmus von 3 ist 0,47712. Zwischen 4,7712 und 3,0103 cm liegen also alle Zahlen, die mit einer 2 beginnen, das sind 1,7609 cm auf unserer 10-cm-Strecke oder 17,609% der Strecke, usf. (s.u. "Mathematische Sicht")

Eigenschaften nach oben unbeschränkter Zahlenmengen

Aus dem oben Dargestellten folgt in der Grenzbetrachtung eine überraschende Aussage: 30,103 % der nach oben unbeschränkten Zahlenmenge des Zehnersystems beginnen mit der Anfangsziffer 1; nur noch 17,609% beginnen mit einer 2, usf. (s.u. "Mathematische Sicht"). Eine genügend große zufällige Stichprobe aus dieser Zahlenmenge muß die Proportionalitäten dieser Zahlenmenge hinreichend genau abbilden. Wo immer die Stichprobe dies nicht tut, war die Stichprobe nicht hinreichend zufällig. Zumindest 2 Ursachen dafür sind denkbar: Entweder wurde die Zufälligkeit vorsätzlich - z.B. durch Beeinflussung von Daten - gestört (Statistische Signifikanz) oder es gibt andere Gründe, warum das Benfordsche Gesetz für diese Zahlenmenge ausnahmsweise nicht gilt; zumeist ist in einem solchen Fall die Zahlenmenge nach oben oder in einem Teilbereich zu stark beschränkt (Beispiele: Telefonnummern werden nach einem System vergeben, haben in der Mehrzahl 7 bis 8 Ziffern; Rechnungsbeträge im Großhandel können bei häufigen Umsätzen bei einem Spezialangebot, z.B. "20 kg Lack + 1 Pinsel zu 99,90 EUR", mit einem konstanten Preis abnorm viele Anfangsziffern in dieser Preiskategorie aufweisen, u.a.). Ein auf solche unbereinigten Datensätze blind angewandter Benford-Test würde oft zu falschen Schlüssen führen.

Mathematische Sicht

Benfords Gesetz besagt, dass die führenden Ziffern n (n = 1...9) mit folgenden Wahrscheinlichkeiten erscheinen:

log10(n+1) - log10(n), oder

führende Ziffer Wahrscheinlichkeit
1 30.1 %
2 17.6 %
3 12.5 %
4 9.7 %
5 7.9 %
6 6.7 %
7 5.8 %
8 5.1 %
9 4.6 %

Anwendungen

Entsprechen reale Datensätze dem Benfordschen Gesetz insofern nicht, als die reale Anzahl von Ziffern bei einer Ziffer signifikant von der für diese Ziffer geltenden theoretischen Erwartung abweicht, dann wird ein Prüfer jene Datensätze, die mit dieser Ziffer beginnen, einer tiefergehenden Analyse unterziehen, um die Ursache(n) für diese Abweichungen zu finden. Dieses Schnellverfahren führt entweder zu tieferen Erkenntnissen über Besonderheiten des untersuchten Datensatzes oder zur Aufdeckung von Manipulationen bei der Datenerstellung.

In der Wirtschaft

Zur Aufdeckung von Betrug bei der Bilanzerstellung, der Fälschung in Abrechnungen, generell zum raschen Auffinden eklatanter Unregelmäßigkeiten im Rechnungswesen. Mit Hilfe des Benfordschen Gesetzes wurde das bemerkenswert "kreative" Rechnungswesen bei Enron und World.com aufgedeckt, durch welches das Management die Anleger um ihre Einlagen betrogen hatte (---> Wirtschaftskriminalität). Heute benutzen Wirtschaftsprüfer und Steuerfahnder Methoden, die auf dem Benfordschen Gesetz beruhen. Diese Methoden stellen einen wichtigen Teil der mathematisch-statistischen Methoden dar, die seit mehreren Jahren zur Aufdeckung von Bilanzfälschung, Steuer- und Investorenbetrug und allgemein Datenbetrug in Verwendung sind.

In der Forschung

Das Benfordsche Gesetz ermöglicht die Aufdeckung konsequenter Datenfälschung auch in der Wissenschaft. Es waren schließlich Messwerte aus der Natur, die zum Wissen über die Existenz des Benfordschen Gesetzes führten. Dessen ungeachtet ist das Benfordsche Gesetz nicht allen Wissenschaftern bekannt, wie Wissenschaftsskandale mit gewisser Periodizität belegen.

Datenfälschung

Die Erstellung gefälschter und dennoch benford-adäquater großvolumiger Datensätze ist noch viel mühsamer als man auf den ersten Blick vermutet, zumal für alle Daten das Benfordsche Gesetz nicht nur für die Anfangsziffer, sondern auch für die Folgeziffern (nach modifizierten Regeln) gelten muß; ferner müßte noch einer Reihe anderer stochastischer Gesetzmäßigkeiten, die dem Datenfälscher allesamt bekannt sein müßten, Rechnung getragen werden; die Daten folgen stets - simultan - noch zahlreichen weiteren statistischen Gesetzmäßigkeiten. All diese Nebenbedingungen unter einen Hut zu bringen ist kompliziert. Gelänge andererseits das "Hintrimmen" der Daten allzu genau, könnte die Fälschung der Daten wiederum sehr leicht erkannt werden (s.u. "Test auf signifikante Abweichungen"). Am besten überlässt man die Erzeugung adäquater Daten nicht dem PC, sondern dem bei ehrlicher Arbeit zuverlässigen Zufall.

Signifkanz

Wie groß die Abweichungen der beobachteten Verteilung von der theoretisch zu erwartenden Verteilung mindestens sein müssen, damit ein begründeter Verdacht auf Manipulation als erhärtet angesehen werden kann, wird mit Hilfe mathematisch-statistischer Methoden (z.B. dem Chi-Quadrat-Test oder dem Kolmogorow-Smirnow-Test, "KS-Test") bestimmt. Für den Chi²-Test sollte beim Test von überzufälligen Abweichungen bei der Anfangsziffer eine Stichprobe ab 109 Zahlen genügen ( ist erfüllt für alle ). Sind die Stichproben viel kleiner, sind die Ergebnisse des Chi-Quadrat-Tests anfechtbar und der KS-Test gegebenenfalls zu tolerant. In einem solchen Fall muß auf einen höchst unangenehmen, aber exakten Test auf Basis der Multinomialverteilung zurückgegriffen werden.

Dass sich gerade Saldenlisten, Rechnungslisten und ähnliche Aufstellungen gemäß dem Benfordschen Gesetz verhalten, liegt an dem Umstand, dass es sich bei der Mehrzahl solcher Zahlenreihen um Sammlungen von Zahlen handelt, die die unterschiedlichsten arithmetischen Prozesse durchlaufen haben und sich daher wie Quasi-Zufallszahlen verhalten. Läßt man den geschäftlichen und buchungstechnischen Prozessen freien Lauf, dann wirken die Gesetze des Zufalls und mithin auch das Benfordsche Gesetz. Wird allerdings im Verlauf einer Rechnungsperiode konsequent Einfluß auf diese Zahlen genommen, indem man häufig welche schönt, bestimmte Zahlen verschwinden läßt oder welche hinzu erfindet, ja wegen gegebener Kompetenzbeschränkungen sogar Prozesse manipuliert, dann wird der Zufall merklich gestört. Diese Störungen manifestieren sich in signifikanten Abweichungen von der theoretisch zu erwartenden Ziffernverteilung.

Beispiel: Wenn ein Angestellter Bestellungen bis zu 1.000 EURO ohne Genehmigung der Geschäftsleitung durchführen darf und er bei Vorliegen von Angeboten höher als 1.000 EUR die Bestellungen häufig "splittet", um sich die Mühen der Genehmigung zu ersparen, dann finden sich in der Benford-Verteilung der Bestellbeträge signifikante Abweichungen von der theoretischen Erwartung.

Dieses Beispiel zeigt, daß statistische Methoden einzelne Unregelmäßigkeiten nicht aufdecken können. Eine gewisse Konsequenz der Manipulationen ist erforderlich. Je größer die Stichprobe ist, umso empfindlicher reagiert ein Signifikanztests im allgemeinen auf Manipulationen.

Test auf signifikante Abweichungen

Benford-Analysen gehören zu den einfachsten Analysen der mathematischen Statistik. Das nachstehende Beispiel ist das Ergebnis der Auszählung der Anfangsziffern einer Stichprobe von 109 Summen aus einer Aufstellung. Die realen (beobachteten) Auszählungsergebnisse werden mit den bei 109 Anfangsziffern zu erwartenden Auszählungsergebnissen verglichen und mittels Chi-Quadrat-Test dahingehend untersucht, ob die gefundenen Abweichungen zufällig sein können oder durch Zufall allein nicht mehr zu erklären sind. Als Entscheidungskriterium wird in diesem Beispiel angenommen, daß von Überzufälligkeit ausgegangen wird, sobald die beobachtete Verteilung der Anfangsziffern zu jenen 4,99...9 % gehört, die diese oder noch höhere Abweichungen aufweisen (statistischer Test). Da in unserem Beispiel 52% aller Verteilungen diese oder höhere Abweichungen aufweisen, kann die Hypothese, daß die Abweichungen durch Zufall entstanden sind, nicht verworfen werden. Wären die Abweichungen allerdings allzu gering, sodaß z.B. 97% aller Verteilungen diese oder höhere Abweichungen aufweisen würden, wäre tiefergehende Analyse eventuell anzuraten: Auch allzu geringe Abweichungen können Verdachtsmomente nähren.


Signifikanztest auf Abweichung von der Benfordverteilung mit Hilfe des Chi-Quadrat-Tests

Tiefergehende Benford-Analysen

Liegen sehr lange Listen mit mehreren tausend Zahlen vor, ist ein Benford-Test nicht nur mit der Anfangsziffer durchführbar. Eine solche Datenfülle erlaubt es, auch die 2., die 3., die 1.+ 2., eventuell sogar die 1.+ 2.+ 3. Ziffer simultan zu überprüfen (Für diese sollte man allerdings mindestens 11.500 Zahlen haben, da ansonsten der Chi-Quadrat-Test unsichere Ergebnisse bringen könnte). Für diese Prüfungen existieren ebenfalls Benford-Verteilungen, wenngleich sie auch um vieles umfangreicher sind. So z.B. beträgt die theoretische Erwartung für das Erscheinen der Anfangsziffern 123... 0,35166%, wohingegen nur noch 0,13508% aller Zahlen die Anfangsziffern 321... aufweisen. Stets gilt die Regel, daß die Ziffern umso mehr einer Gleichverteilung folgen, je kleiner ihr Stellenwert ist. Cent-Beträge folgen nahezu exakt einer Gleichverteilung, wodurch sich bei Cent-Beträgen der logarithmische Ansatz im allgemeinen erübrigt. Bei sehr kleinen Währungen werden Tests auf Gleichverteilung der Scheidemünzenbeträge (z.B. Kopeke-RUS, Heller-CZ, Fillér-H, Lipa-HR) unscharf, da in der Praxis sehr häufig gerundet wird. Große Währungen (US-Dollar, Pfund-Sterling, Euro) erlauben solche Tests aber zumeist schon.

Schätzung von Unternehmensumsätzen

Das Benfordsche Gesetz läßt sich auch zur Schätzung von Umsatzziffern von Unternehmen heranziehen. Für die Größenordnungen der Fakturenbeträge wird angenommen, dass sie annähernd einer Normalverteilung folgen, die Anfangsziffern der Fakturenbeträge der Benford-Verteilung, wobei der Erwartungswert der Anfangsziffer etwa 3,90 beträgt. Mit der Kenntnis des höchsten Fakturenbetrages und der Anzahl der gültigen Fakturen, aus welchen sich der zu schätzende Umsatz zusammensetzt, ist eine brauchbare Schätzung des Umsatzes möglich, wie nachstehendes Beispiel aus der Praxis zeigt. Der Stellenwert in der Tabelle bezeichnet die Ziffer vor dem Komma des Logarithmus. Der tatsächliche Umsatz lag bei 3,2 Mio Währungseinheiten. So haarscharf beim tatsächlichen Ergebnis liegt man bei Umsatzschätzungen allerdings nicht immer. Wenn die Annahme der Normalverteilung für die Größenordnungen nicht hält, muß man eine Schätzverteilung wählen, die der realen eher gleicht. Zumeist folgen die Größenordnungen der Fakturenbeträge dann einer Logarithmischen Normalverteilung.


Schätzung Gesamtumsatz

Zu beachten ist, daß die tatsächliche Verteilung der Fakturenbeträge nur zufällig mit jener der Schätzung übereinstimmen wird. Die Summe aller Schätzfehler je Kategorie kompensiert sich jedoch fast immer auf einen relativ kleinen Betrag.


Andere Methoden der Umsatzschätzung, wie z.B. jene auf Basis der Lognormalverteilung oder der Exponentialverteilung gehen von einer reinen Mittelwertsbetrachtung aus und ignorieren den Umstand, daß der Mittelwert der Anfangsziffern nicht 5, sondern nur 3,9 beträgt. Die alternativen Schätzungen liegen daher zumeist etwas zu hoch.