Diskussion:Soudans und Diskussion:Benfordsches Gesetz: Unterschied zwischen den Seiten
Lemine (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
Pard (Diskussion | Beiträge) |
||
Zeile 1: | Zeile 1: | ||
Nerd, vergleiche bitte die Formel fuer die zweite (bis n-te Stelle) auf den mathpages (http://www.mathpages.com/home/kmath302/Image4220.gif] mit: ''k'' (''k'' = 10...99) is log<sub>10</sub>(''k''+1) - log<sub>10</sub>(''k''). da ist schon ein kleiner unterschied, ja? die wahrscheinlichkeiten fuer alle folgenden stellen sind anders! und ausserdem und schliesslich sind in der tabelle bisher nur die ersten stellenwahrscheinlichkeiten angegeben. also raus mit der zweiten formel. -- [[Benutzer:Kku|kakau]] 08:13, 7. Okt 2003 (CEST) |
|||
Die Lemma Soudans wird im Artikel nicht richtig deutlich oder ist falsch? Ist das ein Oberbegriff für die Dialekte und ethnischen Gruppierungen innerhalb des Landes? |
|||
die 2.t formel ist nicht ident mit der ersten, aber die gibt (lt en WP) die wahrscheinlichkeit für die ersten ''beiden'' Ziffern an denke ich. --[[Benutzer:Nerd|'~']] 09:26, 7. Okt 2003 (CEST) |
|||
An einigen Stellen, die ich Text kursiv markiert habe, hat die Übersetzung aus dem französischen noch nicht ganz geklappt, je nach genauer Bedeutung sollte da im deutschen noch umformuliert werden: |
|||
*intermarriage |
|||
*patrilineage |
|||
*patrolocal |
|||
*polygynous |
|||
naja, dann stimmt es natuerlich wieder - aber warum schreibt man dann nicht gleich die erste variante nochmal hin (was aber bei der kuerze des abschnitts wirklich doppelmoppelei wird)? das ist sonst extrem irrefuehrend! entweder ich konzentriere mich auf die aussage ueber die erste stelle, oder ich versuche gleich, die allgemeine formulierung einzufuehren. nun? [[Benutzer:Kku|kakau]] 09:40, 7. Okt 2003 (CEST) |
|||
ich kann mir da schon ungefähr einen sinn herleiten, aber ungefähr ist mir nicht gut genug und so hoffe ich auf diesem wege, menschen mit besseren kenntnissen der sprache oder der verwandschaftlichen zusammenhänge zu finden denen auch eine passable deutsche formulierung leichter fällt. besonders die letzen sätze des ersten abschnitts holpern sehr. |
|||
--[[Benutzer:Vux|Vux]] 06:07, 9. Aug 2005 (CEST) |
|||
für mich wirkt es auch nicht grad stringent - ich werds nicht reinnehmen. --[[Benutzer:Nerd|'~']] |
|||
i versuche's mal. |
|||
- 'patriache?' ist vätterliche Abstammung (patrilineage) |
|||
[[Benutzer::Dscho]] sagt: Ich habe versucht, den ersten Absatz zu editieren, und es leider nicht geschafft. Die mögliche Interpretation ist irreführend! Das Benfordsche Gesetz sagt nur: Wenn man weiss, dass es eine Obergrenze gibt, nicht aber, wie gross sie ist, dann sind die ersten Ziffern eher klein als gross. Das liegt daran, dass zwischen 100 und 199 genau so viele Zahlen sind wie zwischen 0 und 99, aber die ersteren beginnen alle mit "1". |
|||
:::Diese Interpretationen gehen meiner Meinung an der Gesetzmäßigkeit selber vorbei, denn durch solche Darlegungen wird nicht klar, warum gerade die Differenzen gewisser Logarithmen die Säulen dieses Gesetzes sind. Ich glaube, ich habe erklärt, warum das Benfordsche Gesetz aus mahematischer Sicht unter gewissen Voraussetzungen (voneinander stark unabhängige Zahlen, Skaleninvarianz) gelten muss: Wenn man sich vorstellt, daß die Logarithmen von 1 bis 10 auf einem Maßstab von 10 cm Länge eingezeichnet werden, dann sind 's von 1 bis 2 bereits 3,01 cm, von 2 bis 3 weitere 1,76 cm und von 9 bis 10 nur noch 0,45 cm. Das bedeutet im Klartext: Wenn die Mantissen gleichverteilt sind, dann nehmen jene Zahlen, die mit einer Ziffer unter 2 beginnen, 30,1% ein, usf. Der Rest ist Prozentrechnung. Da diese Logarithmen von 1 bis 10 für '''alle''' Zahlen, die man sich vorstellen kann, gelten (bloß die Zahlen '''vor''' dem Komma sind verschieden, die sagen aber nichts über die Anfangsziffer aus), gelten diese Prozentzahlen für '''alle''' Zahlen des Zehnersystems. |
|||
:::Benford-Verteilungen gibt es für jedes beliebige Zahlensystem und für die Ziffern in anderen Positionen. Das ist gar nicht schwer, wäre aber auch meiner Ansicht nach Ballast. |
|||
:::Das Wesen dieser Merkwürdigkeit kann man durch die Anfangsziffern-Verteilung ohnehin am besten darstellen. Bei keiner anderen Ziffer oder Kombinationen aus Ziffern sind die Unterschiede so groß wie bei der Anfangsziffer. Daher braucht man bei den darauffolgenden Ziffern mitunter Tausende Zahlen, um die zufälligen Schwankungen klein halten zu können. Bei der Anfangsziffer allein sollten schon 105 Zahlen genügen, damit der Chi²-Signifikanz-Test halbwegs verläßliche Aussagen macht, sofern man Beobachtung gegen Erwartung testet. |
|||
Die nicht von mir verfaßten Teile des Artikels stehen wortidentisch unter dem link http://www.formel-sammlung.de/ld-Benfordsches-Gesetz-231.html. Da ich das nicht für ganz in Ordnung halte, zumal 3 Links angegeben sind, nicht aber jener, von dem der identische Text stammt, habe ich diese Teile editiert. Zum einen ist der Link eher "schwach", zum anderen erklärt er das Gesetz nicht, sondern führt nur eine mögliche Interpretation an, die nicht Fisch und nicht Fleisch ist.[[Benutzer:Pard|Pard]] 13:24, 19. Mär 2005 (CET) |
|||
:Unter der Seite des von dir angegebenen Links findet sich folgender Text: |
|||
Dieser Artikel stammt aus Wikipedia, der freien Enzyklopädie |
|||
und steht unter der GNU Free Documentation Licence. |
|||
:Es ist also nicht die Wikipedia, die von dort abgeschrieben hat (das wäre auch eine Urheberrechtsverletzung), sondern die "[[Mirror|spiegeln]]" unsere Inhalte. Daher ist auch kaum ein Link auf diese Seite angebracht :) Gruß --[[Benutzer:Dbenzhuser|dbenzhuser]] 13:53, 19. Mär 2005 (CET) |
|||
Ääh, sorry. Sollte wohl selber sorgfältiger lesen. Danke für die Modifikationen. [[Benutzer:Pard|Pard]] 17:07, 19. Mär 2005 (CET) |
|||
== Formatierung == |
|||
Der Artikel scheint sich ja prächtig zu entwickeln, ev kann man noch die Formatierungen von '''fett''' auf ''kursiv'' ändern.--[[Benutzer:Nerd|^°^]] [[Benutzer_Diskussion:Nerd| @]] |
|||
Es ist schön, wenn es gute Geister gibt, die einem Newcomer die Gestaltung verbessern. Danke. [[Benutzer:Pard|Pard]] 21:14, 24. Mär 2005 (CET) |
|||
*dieser Artikel soll Bestandteil von [[Wikipedia:WikiReader/Wissen.ungewöhnlich.]] werden..--[[Benutzer:Nerd|^°^]] [[Benutzer_Diskussion:Nerd| @]] |
|||
=== [[Benfordsches Gesetz]] === |
|||
*'''Pro'''. War mir bisher unbekannt, und jetzt fühle ich mich doch gut informiert. --[[Benutzer:AndreasPraefcke|AndreasPraefcke]] [[Benutzer Diskussion:AndreasPraefcke|''¿!'']] 18:35, 29. Jun 2005 (CEST) |
|||
* '''pro''' ausgezeichneter Artikel. Kleiner Kritikpunkt ist höchstens die fehlende Literatur. --[[Benutzer:Kurt seebauer|Kurt seebauer]] 20:29, 29. Jun 2005 (CEST) |
|||
*'''pro''' Ich kannte das Gesetz schon, aber jetzt kenn ichs noch viel besser! --[[Benutzer:Bara|Bara]] 2. Jul 2005 15:03 (CEST) |
|||
*'''Literatur''': Ich habe ein wenig Literatur hineingetan. Das wenigste davon habe ich selbst |
|||
gelesen, mangels Zugänglichkeit. [[Benutzer:80.120.190.234|80.120.190.234]] 6. Jul 2005 12:58 (CEST) |
|||
== Literatur == |
|||
Ich habe die gerade eingefügte Literatur wieder aus dem Artikel herausgenommen. In dieser Form und Menge ist das dem Leser gegenüber eine Zumutung! Kann hier bitte jemand eine Auswahl treffen (max. 1-2 für den Laien verständliche und vielleicht ein Review-Artikel)? --[[Benutzer:TDLacoste|'''''T'''d'''L''''']] 6. Jul 2005 12:59 (CEST) |
|||
''Barlow, J. L. and Bareiss, E. H.'' "On Roundoff Error Distributions in Floating Point and |
|||
Logarithmic Arithmetic." Computing 34, 325-347, 1985. |
|||
''Benford, F.'' "The Law of Anomalous Numbers." Proc. Amer. Phil. Soc. 78, 551-572, 1938. |
|||
''Boyle, J.'' "An Application of Fourier Series to the Most Significant Digit Problem." Amer. Math. |
|||
Monthly 101, 879-886, 1994. |
|||
''Flehinger, B. J.'' "On the Probability that a Random Integer Has Initial Digit A." Amer. Math. |
|||
Monthly 73, 1056-1061, 1966. |
|||
''Franel, J.'' Naturforschende Gesellschaft, Vierteljahrsschrift (Zürich) 62, 286-295, 1917. |
|||
''Havil, J.'' "Benford's Law." §14.2 in Princeton, NJ: Princeton University Press, pp. 145-155, |
|||
2003. |
|||
''Hill, T. P.'' "Base-Invariance Implies Benford's Law." Proc. Amer. Math. Soc. 12, 887-895, 1995. |
|||
''Hill, T. P.'' "The Significant-Digit Phenomenon." Amer. Math. Monthly 102, 322-327, 1995. |
|||
''Hill, T. P.'' "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, |
|||
1996. |
|||
''Hill, T. P.'' "The First Digit Phenomenon." Amer. Sci. 86, 358-363, 1998. |
|||
''Knuth, D. E.'' "The Fraction Parts." §4.2.4B in Reading, MA: Addison-Wesley, pp. 254-262, 1998. |
|||
''Ley, E.'' "On the Peculiar Distribution of the U.S. Stock Indices Digits." Amer. Stat. 50, 311- |
|||
313, 1996. |
|||
''Livio, M.'' New York: Broadway Books, pp. 232-236, 2002. |
|||
''Newcomb, S.'' "Note on the Frequency of the Use of Digits in Natural Numbers." Amer. J. Math. 4, |
|||
39-40, 1881. |
|||
''Nigrini, M. J.'' The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies. |
|||
Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992. |
|||
''Nigrini, M.'' "A Taxpayer Compliance Application of Benford's Law." J. Amer. Tax. Assoc. 18, 72- |
|||
91, 1996. |
|||
''Nigrini, M.'' "I've Got Your Number." J. Accountancy 187, pp. 79-83, May 1999. |
|||
''Nigrini, M.'' Digital Analysis Using Benford's Law: Tests Statistics for Auditors. Vancouver, |
|||
Canada: Global Audit Publications, 2000. |
|||
''Plouffe, S.'' "Graph of the Number of Entries in Plouffe's Inverter." |
|||
''Raimi, R. A.'' "The Peculiar Distribution of First Digits." Sci. Amer. 221, 109-119, Dec. 1969. |
|||
''Raimi, R. A.'' "On the Distribution of First Significant Digits." Amer. Math. Monthly 76, 342- |
|||
348, 1969. |
|||
''Raimi, R. A.'' "The First Digit Phenomenon." Amer. Math. Monthly 83, 521-538, 1976. |
|||
''Schatte, P.'' "Zur Verteilung der Mantisse in der Gleitkommadarstellung einer Zufallsgröße." Z. |
|||
Angew. Math. Mech. 53, 553-565, 1973. |
|||
''Schatte, P.'' "On Mantissa Distributions in Computing and Benford's Law." J. Inform. Process. |
|||
Cybernet. 24, 443-455, 1988. |
|||
------------- |
|||
Lieber TdL, Dein Literaturstellen-Brandmelder funktioniert ja besser als eine Schweizer Uhr. |
|||
Ich empfehle die Beibehaltung von drei Quellen aus dieser Literaturliste: |
|||
1. Benford selber |
|||
2. Newcomb, der der eigentliche Entdecker ist |
|||
3. Nigrini - Detection of Income Tax Evasion ...-, weil er wohl weltweit der Mann sein dürfte, der gegenwärtig die meiste Erfahrung in der praktischen Anwendung des Benfordschen Gesetzes hat. Lieben Gruß [[Benutzer:Pard|Pard]] 6. Jul 2005 13:09 (CEST) |
|||
== Logarithmus == |
|||
Habe den Abschnitt ''Logarithmische Begründung des Benfordschen Gesetzes'' hierher verschoben, da der [[Logarithmus]] an anderer Stelle behandelt wird: |
|||
---- |
|||
Wie man sich in der Literatur und im Web leicht überzeugen kann, sind alle Versuche, das Benfordsche Gesetz in Umgehung des Logarithmus zu erklären, letztlich schwerer zu begreifen als der Logarithmus. Ist beispielsweise x aus der Gleichung <math>10^x = 2</math> gesucht, dann findet man: <math>x=0,30103</math>, und das ist der Logarithmus von 2 zur Basis 10. Man sagt auch <math>x=log_{10}(2)</math>. |
|||
Die [[Mantisse]] (d.s. die Stellen eines [[Logarithmus]] nach dem Komma) definiert die ''Struktur'', den ziffernmäßigen Aufbau, einer Zahl, die Positionen vor dem Komma geben lediglich Auskunft über die Position des Kommas, die ''Dimension'' der Zahl. So steht die [[Mantisse]] 0,09151 für die Zahl 1,23455374 ( 10^0,09151 = 1,23455374 ), die Mantisse 3,09151 für 1.234,55374 ( 10^3,09151 = 1.234,55374 ). Die Struktur der Zahl ist identisch, nur das Komma hat sich um 3 Positionen nach rechts verschoben. |
|||
---- |
|||
[[Benutzer:Anton|Anton]] 19:54, 30. Jul 2005 (CEST) |
|||
== Zustand des Artikels == |
|||
Mich überrascht die Qualitätsbeurteilung des Artikels. <br/>Ich finde ihn inhomogen und sehr vorläufig. Daran ändern auch mein Nachtrag der Benfordschen Verteilung und ein Rechenbeispiel wenig. Der Abschnitt ''Erwartungswert'' ist ohne Verteilungsfunktion nicht nachvollziehbar. Die Erschütterung des gesunden Menschenverstandes durch das benfordsche Gesetz kommt m.E. viel zu kurz. [[Benutzer:Anton|Anton]] 21:22, 30. Jul 2005 (CEST) |
|||
== Erwartungswert == |
|||
Ich habe den Abschnitt ''Erwartungswert'' hierher verschoben: |
|||
---- |
|||
Ableitung des Erwartungswerts der Benfordverteilung |
|||
Auf Basis der oben dargestellten Häufigkeiten je Anfangsziffer würde man zu einem |
|||
Erwartungswert von rd. 3,44 gelangen. Dieser Wert ist in diesem Fall allerdings nur eine grobe Näherung. Der Erwartungswert beträgt tatsächlich (10-1)/ln10 = 9/ln10 = 3,908650337... |
|||
Dies deshalb, da der zu erwartende [[Anteilswert]] der Anfangsziffer k dem Flächeninhalt unter der hyperbolischen Funktion f(x) = 1/xln10 in den Grenzen von k bis k+1 entspricht. Der [[Erwartungswert]] der Benfordverteilung entspricht der [[Abszisse]] des Schwerpunkts der Fläche A unter dieser Funktion in den Grenzen von 1 bis 10 (A=1), die als das Integral G(x) der Funktion |
|||
g(x)= x/Axln10 = 1/Aln10 in den Grenzen von 1 bis 10 wegen G(x)=x/Aln10 das Ergebnis 9/ln10 liefert. |
|||
---- |
|||
Ich verstehe den Abschnitt nicht. Wer kann helfen? |
|||
Wenn ''p(x) = log(1+1/x)'', dann ist der Erwartungswert EX= int (log(1 + 1/x)*x dx in den Grenzen von 1 bis 10 -- und ich erhalte dafür den Wert 3.50. |
|||
Was sagt mir das? |
|||
Das benfordsche Gesetz bezieht sich auf diskrete Verteilungen, weshalb man auch mit dem diskreten Erwartungswert rechnen sollte, wenn ich den Mittelwert der ersten Ziffer wissen möchte. |
|||
[[Benutzer:Anton|Anton]] 22:09, 30. Jul 2005 (CEST) |
|||
---- |
|||
==Lieber Anton!== |
|||
===Zum Bruchstückhaften des Artikels=== |
|||
Ja, Anton, Du hast recht. Der Artikel sollte von Grund auf neu konzipiert und dann in einem Guss geschrieben werden. Bislang ist er das Ergebnis von Beiträgen mehrerer Autoren mit unterschiedlichem Schreibstil und Stilmitteln und personentypischen Rechtschreib- und Flüchtigkeitsfehlern, obwohl die Hauptmasse des Artikels immer noch von mir selber stammt. Soviel zu seinen Nachteilen. |
|||
Gegenüber vielen Artikeln, die es mittlerweile über das Benfordsche Gesetz gibt, hat dieser bei allen Mängeln aber den Vorteil, daß er zeigt, wie man das Gesetz in der Praxis verwenden kann, und zwar nicht ausschließlich zur "fraud detection". |
|||
===Zum Logarithmus=== |
|||
Den Exkurs über den Logarithmus auf die Diskussionsseite verbannt und ihn durch eine dem durchschnittlichen Leser nicht ohne weiteres zugängliche mathematische Ableitung ersetzt zu haben, sehe ich als didaktischen Fehler, womit nämlich erreicht wird, dass außer den Autoren wieder nur wenige das Gesetz kapieren. Denn in einen Artikel "Logarithmus" guckt nur der, der wirklich muss. Ich weiß zwar nicht, warum das so ist, aber den meisten Leuten graut vor dem Logarithmus. Nur deshalb habe ich diesen einfachen Exkurs geschrieben, damit das Gesetz evtl. besser begriffen wird. |
|||
Nach Deiner Logik hättest Du auch den Halbsatz, was die Fibonacci-Zahlen sind, streichen müssen, und das wäre didaktisch mindestens ebenso ungünstig gewesen. Wikipedia ist ja längst nicht mehr so leicht zu managen wie ein kleiner Hypertext, zumindest nicht zu gewissen Tageszeiten. |
|||
===Verbesserungsvorschlag=== |
|||
Man sollte sich bei der Neufassung des Artikels überlegen, ob man nicht gleich die Benford-Verteilung für beliebig lange Anfangssequenzen in beliebigen Zahlensystemen der Form (ln(sequ+1)-ln(sequ))/ln z mit sequ z.B. 1412.... und z = Zahlensystem einführt und damit eine möglichst umfassende Darstellung des Benfordschen Gesetzes präsentiert. Sed cui bono ? |
|||
===Zur mangelnden Erschütterung des sog. gesunden Menschenverstandes=== |
|||
Die Erschütterung des menschlichen Hausverstandes kommt meiner Ansicht nach nicht zu kurz. Reicht es nicht, daß in einer nach oben unbeschränkten Zahlenmenge des dekadischen Systems mehr als 30% aller Zahlen mit einer '1' beginnen müssen ? Wie verrückt soll Deiner Meinung nach der Hausverstand angesichts solcher Informationen noch spielen ? Hat man erst einmal verdaut, daß dies das 2,71-Fache dessen ist, was der Hausverstand vermutet hätte, wird auch für den Hausverstand wieder alles kreuznormal und logisch. |
|||
Was MEINEN Hausverstand so durcheinander bringt, das sind die Fibonacci-Zahlen, die es schon mit den ersten 30 (dreißig) Zahlen zuwege bringen, daß ihre Anfangsziffern die Benford-Verteilung so genau treffen wie kaum eine andere Liste mit so wenigen Zahlen. Da sieht man, wie stark das Benfordsche Gesetz in der Natur verankert sein muß, auch wenn es in der Natur vielleicht so heißt: "Unabhängig von der Größenordnung im Kosmos: Kleines ist immer weit häufiger als Großes". |
|||
Aber sieht man das Gesetz so wie zuletzt dargestellt, kann der verdrehteste Hausverstand nicht umhin, zuzustimmen: Es gibt mehr Quarks als Atome, mehr Atome als Moleküle, mehr Methan als Naphthalin, mehr Mäuse als Elefanten, mehr kleine Sonnen als Superriesen, mehr kleine Schwarze Löcher als gigantische. Desgleichen gilt für Unternehmen, für die Anzahl von Sprechern einer Sprache (noch...), für Rechnungsbeträge, für Einkommen, für wissenschaftliche Leistungen, Artikel, Kommentare und Repliken, selbst in Wikipedia. Natürlich könnte man in einer Neufassung des ganzen Artikels solche philosophische Gedanken mit einfließen lassen, wohl aber nur, um Gefahr zu laufen, daß der nächste Co-Autor die Wissenschaftlichkeit solcher Gedanken bezweifelt und die betreffenden Passagen löscht oder bei guter Laune hier hereinstellt. |
|||
===Zum Mittelwert: stetig oder diskret?=== |
|||
Die Logik meiner Mittelwertbetrachtung (3.91), die Deine Kritik ebenfalls nicht unverschont ließ, stammt aus einem wissenschaftlichen Artikel; ich hätte ihn gerne zitiert, aber ich konnte das betreffende pdf auf dem PC in der Eile nicht finden. Wenn ich ihn noch im Web finde, stelle ich Dir den link hier hinein. |
|||
Das Wesentliche daran ist, daß Du die diskrete Benford-Verteilung beim dekadischen System ersetzen kannst durch die stetige Funktion y=1/xln10 (bei beliebigen Zahlensystemen z durch y=1/xlnz). Das siehst Du bei Integration dieser Funktion in beliebigen Grenzen innerhalb des Intervalls [1;10]. Integrierst Du zwischen so definierten Grenzen [a;b], so erhältst Du (lnb - lna)/ln10, was identisch ist mit der diskreten Betrachtung, sofern a und b ganze Zahlen sind. a und/oder b können aber auch irgendwelche andere nicht ganze reelle Zahlen sein. Der Mittelwert 3.91 entstammt dieser Logik. Die Praxis lehnt sich an eben diese Denkweise an, nimmt 3.90 oder 3.91 und fährt mit ihren Schätzungen besser als mit 3,44 oder mit 3,50. Beide Denkweisen haben etwas für sich. |
|||
[[Benutzer:Pard|Pard]] 13:17, 5. Aug 2005 (CEST) |
|||
==== Hallo Pard ==== |
|||
Vielen Dank für die Antworten. |
|||
Zum Logarithmus: die Grafik des Log-Kreises ersetzt m.E. den Abschnitt zum Logarithmus. Wer den Log-Artikel nicht lesen will, wird auch mit dem Abschnitt nur wenig anzufangen wissen. |
|||
Fibonacci: genau. Zufallszahlen weisen diese Eigenschaft nicht auf. |
|||
Frage zu Zipf: Hast du vielleicht einen Weg gefunden, wie man nachvollziehen kann, warum sich Benfordsche und [[Zipfsches Gesetz|Zipf-Verteilung]] trotz ihrer unterschiedlichen Darstellung so gleichen? |
|||
Viele Grüße, [[Benutzer:Anton|Anton]] 18:57, 6. Aug 2005 (CEST) |
|||
==== Hallo Anton ==== |
|||
Das Zipfsche Gesetz und Benford, mmh. Nehmen wir die Rangordnung aller Wörter im Deutschen. Jedem Wort wird eine Rangzahl zugeordnet. Nehmen wir an, es würden üblicherweise nur 199 Worte verwendet; das entspräche vielleicht dem vorherrschenden Wortschatz in einer durchschnittlichen Schnapsbude. Dann könnte jeder dort Anwesende mit etwas Übung statt einer Sequenz von Worten eine Sequenz von Ziffern, die für diese Worte stehen, sagen. Die als Ziffernsequenz im 200-er-System verstanden werden könnte. Jede Ziffernsequenz k hat eine Benford-Wahrscheinlichkeit der Form (ln(k+1)-lnk)/ln200. Ganz ähnlich wäre es mit den Buchstabensequenzen, inkl. Leerzeichen 27 Zeichen, also uminterpretiert im 28-er-Zahlensystem. |
|||
Bei Zipf werden die untersuchten Werte einer Rangreihung unterzogen und mithin durch eine Ziffer ersetzt. Ab n = 30 beginnen 30% der Ränge mit einer 1, danach sinkt das Verhältnis zugunsten der übrigen Ränge, um ab 100 wieder die 1 zu bevorzugen, was erst ab 200 wieder aufhört, usw. |
|||
Manchmal habe ich den Eindruck, nicht das benfordsche Gesetz ist ein Spezialfall des Zipfschen Gesetzes, sondern umgekehrt; das benfordsche Gesetz spricht ausschließlich von der Häufigkeit von Ziffern. Die Transformationen, die der Anwendung des Zipfschen Gesetzes vorangehen, machen aus irgendwelchen Zeichen und Symbolen Ziffern. |
|||
Auch die häufigsten Strukturwörter des Deutschen sind jene Wörter, die die Struktur der Sprache erzeugen, selbst aber eine nahzu vernachlässigbare Bedeutung haben. Das Russische kommt wunderbar ohne der-die-das, ein-eine-ein etc. aus, ohne einen Funken an Bedeutung nicht darstellen zu können. |
|||
Was man bei all diesen Gesetzmäßigkeiten so schwer kapiert, ist, dass die ZAHLENWERTE SELBST SO GERINGE BEDEUTUNG haben. Es zählt häufig nur der Logarithmus, und von ihm auch nur das, was hinter dem Komma steht. Und erst bei den Logarithmen haben alle die gleiche Chance, was das Kleine gegenüber dem Größeren bevorzugt. Diese Bevorzugung des Kleinen gegenüber dem Großen führt zu den typischen hyperbolischen Verläufen, wobei man oft nicht mehr sagen kann, gilt nun Benford, Zipf, Exponentialverteilung oder Logarithmische Normalverteilung, Pareto oder ... ? Statistisch kann man leider nie sagen, was wirklich GILT, sondern nur, was im konkreten Fall am besten PASST. |
|||
Einen mathematisch schlüssigen Übergang von Benford zu Zipf, den habe ich leider nicht parat. Die natürliche Tendenz zu hyperbolischen Verteilungen ist aber evident. Das betont auch B.Mandelbrot. |
|||
Liebe Grüße [[Benutzer:Pard|Pard]] 19:46, 6. Aug 2005 (CEST) |
|||
=Nochmals hallo Anton= |
|||
==ZIPF ~ BENFORD== |
|||
Ich habe mir aus dem Artikel über das zipfsche Gesetz die Statistik über die Häufigkeiten von 32 Zeichen im Deutschen vorgenommen. Leider vernachlässigt diese Statistik, daß es auch Strichpunkte, Doppelpunkte, Anführungszeichen etc. und nicht nur Punkt und Komma in deutschen Texten gibt. Wie auch immer, ich habe diese 32 Zeichen als Symbole des 33-er-Zahlensystems betrachtet und dabei herausgefunden, dass das benfordsche Gesetz die Zeichenhäufigkeit im Deutschen noch besser wiedergibt als das zipfsche Gesetz. Der Unterschied im Chi² ist zwar marginal, aber es ist über 30% niedriger als beim zipfschen Approach. |
|||
:Um eine passable Statistik zu haben, hatte ich mich im Artikel auf Buchstaben beschränkt und auch nicht zwischen Groß- und Kleinbuchstaben unterschieden. <br/>Vielen Dank für das Testen mit beiden Verteilungen. Den nächsten Schritt habe ich bisher gescheut: was ist, wenn die Mandelbrot-Zipf-Verteilung mit den zwei zusätzlichen Fit-Parametern die Benford-Verteilung numerisch gut annähert? Wie soll man das analytisch nachvollziehen, wenn es mir bereits bei den einfachen Verteilungen nicht gelingt? [[Benutzer:Anton|Anton]] 23:15, 8. Aug 2005 (CEST) |
|||
==BENFORD== |
|||
Hast Du schon bemerkt, dass die Häufigkeit der '1' die Summe aus den Häufigkeiten der '2' und der '3', aber auch die Summe aus den Häufigkeiten der '3','4' und der '5', aber auch der '4','5','6' und der '7' usw. ist ? Das gilt im übrigen für alle Zahlensysteme. |
|||
Liebe Grüße [[Benutzer:Pard|Pard]] 12:48, 8. Aug 2005 (CEST) |
|||
==benfordsches Gesetz wäre angeblich Spezialfall des zipfschen Gesetzes== |
|||
Ich stelle den Satz: |
|||
"Das benfordsche Gesetz kann als Spezialfall des [[Zipfsches Gesetz|zipfschen Gesetzes]] angesehen werden." mal hier herein. Ich glaube nämlich, dass das so nicht stimmt. |
|||
1. Das zipfsche Gesetz beruht auf einer hyperbolischen Funktion zweiten Grades, deren Stammfunktion eine Hyperbel der Form F = C/R oder einfach F(x) = c/x ist. Die Stammfunktion der Benford-Funktion f(x) = 1/xlnB (B für Zahlenbasis) ist eine logarithmische Funktion. |
|||
2. Die Benford-Verteilung ist logisch ableitbar, das sogenannte zipfsche Gesetz ist empirisch gefunden; erst danach ist eine mathematische Entsprechung gesucht worden, die, anders als beim benfordschen Gesetz, der willkürlichen Wahl einer optisch naheliegenden mathematischen Funktion entsprang. Das ist aber höchst unwissenschaftlich, würde Sir K.Popper gesagt haben, weil er vor seinem Tod stets den umgekehrten Weg forderte. Was er jetzt fordert, weiß keiner. |
|||
3. Das zipfsche Gesetz wird in der Linguistik mit höchst mäßigem Erfolg probiert, es stimmt einfach nicht hinreichend genau. Das benfordsche Gesetz stimmt in seinen Einsatzgebieten hinreichend genau, und zwar mit wachsender Stichprobe immer genauer. |
|||
4. Ich halte das zipfsche Gesetz, auch wenn es einen netten Namen hat, für eines der zahlreichen Artefakte der Wissenschaft. Den Häufigkeiten sind Nominaldaten, wie Buchstaben (die in jeder Sprache anders geordnet sind) oder Wörter, unterlegt. Man weiß nicht, wie man diese Daten auf der Abszisse objektiv ordnen soll. Dann rangreiht man die Häufigkeiten nach fallenden Werten und erhält damit zwingend eine monoton fallende Funktion. Da die Werte nicht um einen konstanten Wert fallen, ergibt sich fast zwangsläufig eine sortierte Aneinanderreihung, die wie eine Hyperbel aussieht. Ich meine, als Zipf das sah, sagte er, ah, eine Hyperbel, und ihm fiel ein: y = 1/x, multipliziert mit einem Faktor c. Genauso wie die linguistischen Sortierungen kann man die Intelligenzquotienten der Passagiere der S-Bahn sortieren, und man wird wiederum eine "hyperbolische Gesetzmäßigkeit" finden. B. Mandelbrot dürfte das erkannt haben, weil er offenbar das zipfsche Gesetz zu reparieren versuchte. |
|||
Ich erinnere mich eines Kommentars eines Wikipedianers auf der Diskussionsseite des zipfschen Artikels, der meinte, er verstehe die Deduktionen rein gar nicht, weil er weder Linguist noch Mathematiker sei, aber ihn mute all das wie eine Tautologie an. Er hat ja recht: Diese sortierten Daten sagen nur aus: "Größere Häufigkeiten sind größer als solche, die kleiner sind als die größeren." Quae sapientia ! |
|||
5. Die Summe aller Häufigkeiten beim zipfschen Gesetz ergibt nicht nur nicht 100%, sie steigt bei wachsender Zahl an Elementen über 100%. So ein GAU passiert bei Benford nie. |
|||
6. Das zipfsche "Gesetz" entspricht haargenau der Benford-Funktion 1/xln65 eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65). Das zipfsche Gesetz ist daher wahrscheinlich nicht unentbehrlich. Man könnte jetzt wieder mutmaßen, vielleicht liegt die zipfsche Sortierroutine dem genetischen Code, der ja auch 64 Zeichen hat (A,C,G,T im Dreierpack ergibt 4³ = 64 Zeichen), oder der Schrift der Japaner zugrunde, vielleicht auch dem durchschnittlichen Verrentungsalter in Nordossetien. |
|||
Liebe Grüße [[Benutzer:Pard|Pard]] 15:42, 9. Aug 2005 (CEST) |
|||
== Benford -> Zipf + Paretto == |
|||
Hallo Pard,<br/> |
|||
Du schreibst: ''Das zipfsche "Gesetz" entspricht haargenau der Benford-Funktion 1/xln65 eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65).'' <br/>Leider nicht ganz, siehe Vergleichsgrafik unter Zipf. Bei kleinen Werten treten Abweichungen auf, die nicht von der Normierung abhängen, sich aber u.U. durch weitere Parameter (Mandelbrot) verringern lassen. Die Normierung ist bei der Benford-Funktion ohne Zweifel eleganter, bei Zipf aber auch kein großes Problem (Taylor-Näherung).<br/>Wenn sich beide Verteilungen zusammen führen ließen, sollte Zipf ein Unterpunkt von Benford werden, ebenso wie die [[Pareto-Verteilung]]...<br/>[[Benutzer:Anton|Anton]] 18:36, 9. Aug 2005 (CEST) |
|||
== Benford -> Zipf + Pareto == |
|||
Hallo Anton,<br/> |
|||
Das Problem beginnt ganz in den Anfangsgründen. Der zipfsche Ansatz ist hyperbolisch. Die Integralkurve der Zipfverteilung ist eine Hyperbel der allgemeinen Form F(x) = c/x, die im Quadranten (x>0;y>0) von links oben nach rechts unten verläuft. Daher ist die Zipf-Funktion eine Funktion der Form f(x) = k/x², die einen ähnlichen Verlauf nimmt. Die Benford-Funktion ist von der Form 1/xlnB, die Integralkurve lautet daher F(x)= lnx/lnB, die im oben definierten Quadranten von links unten nach rechts oben verläuft. Wenn wir die Stammfunktionen miteinander vergleichen, sehen wir den Unterschied, der evident ist. |
|||
Das Problem ist auch, dass das zipfsche Gesetz - ebenso wie das von Lotka und jenes von Bradford, wohl eher durch eine Art geometrischer Verteilung darstellbar ist, und dass deshalb beide Gesetze quasi entbehrlich wären. Zudem hat die Rangreihung von Häufigkeiten fast immer die Tendenz, hyperbolisch auszusehen. |
|||
Wenn dann noch nach Buchstaben oder Worten sortiert wird, kommt mir das so vor, als würde ich die Benford-Verteilung darstellen, indem ich die Anfangsziffern auf der Abszisse nach deren Anfangsbuchstaben im Alphabet reihte, was in fast allen Ländern auf einen unterschiedlichen Verlauf hinaus liefe. Wie Du möglicherweise gelesen hast, bezweifle ich die Existenz des zipfschen Gesetzes daher generell, zumal auf der Abszisse vergleichbarer Unfug gemacht wird. Zipf war ein anerkannter Linguist von Harvard; Mathematiker war er keiner. Als Linguist staunt man sicher bald über was, wenn 's mathematisch wird. |
|||
Dieselbe Methode, die Zipf verwendet hat, wurde mir vor 2 Jahren von einem entfernten Spross einer bekannten europäischen Adelsfamilie mit stolzgeschwellter Brust präsentiert (in anderem statistischen Zusammenhang). Ich war versucht, diesen Approach nach ihm zu benennen, habe den Namen aber dann doch, aus Gründen der Wahrung der Anonymität, zwiefach tabuistisch entstellt und nenne den Approch seither GELBBROT-METHODE. Mit ihrer Hilfe kann man herrliche Fakes produzieren. Der Erkenntnis ist so was freilich nicht dienlich. Ich bezweifle nicht, dass es bei Sortierung von Häufigkeiten zu einem hyperbolischen Verlauf kommt. Aber das liegt m.E. mehr am Befehl SORT, weniger an Zipf. |
|||
Liebe Grüße [[Benutzer:Pard|Pard]] 11:11, 10. Aug 2005 (CEST) |
Version vom 10. August 2005, 14:00 Uhr
Nerd, vergleiche bitte die Formel fuer die zweite (bis n-te Stelle) auf den mathpages (http://www.mathpages.com/home/kmath302/Image4220.gif] mit: k (k = 10...99) is log10(k+1) - log10(k). da ist schon ein kleiner unterschied, ja? die wahrscheinlichkeiten fuer alle folgenden stellen sind anders! und ausserdem und schliesslich sind in der tabelle bisher nur die ersten stellenwahrscheinlichkeiten angegeben. also raus mit der zweiten formel. -- kakau 08:13, 7. Okt 2003 (CEST)
die 2.t formel ist nicht ident mit der ersten, aber die gibt (lt en WP) die wahrscheinlichkeit für die ersten beiden Ziffern an denke ich. --'~' 09:26, 7. Okt 2003 (CEST)
naja, dann stimmt es natuerlich wieder - aber warum schreibt man dann nicht gleich die erste variante nochmal hin (was aber bei der kuerze des abschnitts wirklich doppelmoppelei wird)? das ist sonst extrem irrefuehrend! entweder ich konzentriere mich auf die aussage ueber die erste stelle, oder ich versuche gleich, die allgemeine formulierung einzufuehren. nun? kakau 09:40, 7. Okt 2003 (CEST)
für mich wirkt es auch nicht grad stringent - ich werds nicht reinnehmen. --'~'
[[Benutzer::Dscho]] sagt: Ich habe versucht, den ersten Absatz zu editieren, und es leider nicht geschafft. Die mögliche Interpretation ist irreführend! Das Benfordsche Gesetz sagt nur: Wenn man weiss, dass es eine Obergrenze gibt, nicht aber, wie gross sie ist, dann sind die ersten Ziffern eher klein als gross. Das liegt daran, dass zwischen 100 und 199 genau so viele Zahlen sind wie zwischen 0 und 99, aber die ersteren beginnen alle mit "1".
- Diese Interpretationen gehen meiner Meinung an der Gesetzmäßigkeit selber vorbei, denn durch solche Darlegungen wird nicht klar, warum gerade die Differenzen gewisser Logarithmen die Säulen dieses Gesetzes sind. Ich glaube, ich habe erklärt, warum das Benfordsche Gesetz aus mahematischer Sicht unter gewissen Voraussetzungen (voneinander stark unabhängige Zahlen, Skaleninvarianz) gelten muss: Wenn man sich vorstellt, daß die Logarithmen von 1 bis 10 auf einem Maßstab von 10 cm Länge eingezeichnet werden, dann sind 's von 1 bis 2 bereits 3,01 cm, von 2 bis 3 weitere 1,76 cm und von 9 bis 10 nur noch 0,45 cm. Das bedeutet im Klartext: Wenn die Mantissen gleichverteilt sind, dann nehmen jene Zahlen, die mit einer Ziffer unter 2 beginnen, 30,1% ein, usf. Der Rest ist Prozentrechnung. Da diese Logarithmen von 1 bis 10 für alle Zahlen, die man sich vorstellen kann, gelten (bloß die Zahlen vor dem Komma sind verschieden, die sagen aber nichts über die Anfangsziffer aus), gelten diese Prozentzahlen für alle Zahlen des Zehnersystems.
- Benford-Verteilungen gibt es für jedes beliebige Zahlensystem und für die Ziffern in anderen Positionen. Das ist gar nicht schwer, wäre aber auch meiner Ansicht nach Ballast.
- Das Wesen dieser Merkwürdigkeit kann man durch die Anfangsziffern-Verteilung ohnehin am besten darstellen. Bei keiner anderen Ziffer oder Kombinationen aus Ziffern sind die Unterschiede so groß wie bei der Anfangsziffer. Daher braucht man bei den darauffolgenden Ziffern mitunter Tausende Zahlen, um die zufälligen Schwankungen klein halten zu können. Bei der Anfangsziffer allein sollten schon 105 Zahlen genügen, damit der Chi²-Signifikanz-Test halbwegs verläßliche Aussagen macht, sofern man Beobachtung gegen Erwartung testet.
Die nicht von mir verfaßten Teile des Artikels stehen wortidentisch unter dem link http://www.formel-sammlung.de/ld-Benfordsches-Gesetz-231.html. Da ich das nicht für ganz in Ordnung halte, zumal 3 Links angegeben sind, nicht aber jener, von dem der identische Text stammt, habe ich diese Teile editiert. Zum einen ist der Link eher "schwach", zum anderen erklärt er das Gesetz nicht, sondern führt nur eine mögliche Interpretation an, die nicht Fisch und nicht Fleisch ist.Pard 13:24, 19. Mär 2005 (CET)
- Unter der Seite des von dir angegebenen Links findet sich folgender Text:
Dieser Artikel stammt aus Wikipedia, der freien Enzyklopädie und steht unter der GNU Free Documentation Licence.
- Es ist also nicht die Wikipedia, die von dort abgeschrieben hat (das wäre auch eine Urheberrechtsverletzung), sondern die "spiegeln" unsere Inhalte. Daher ist auch kaum ein Link auf diese Seite angebracht :) Gruß --dbenzhuser 13:53, 19. Mär 2005 (CET)
Ääh, sorry. Sollte wohl selber sorgfältiger lesen. Danke für die Modifikationen. Pard 17:07, 19. Mär 2005 (CET)
Formatierung
Der Artikel scheint sich ja prächtig zu entwickeln, ev kann man noch die Formatierungen von fett auf kursiv ändern.--^°^ @
Es ist schön, wenn es gute Geister gibt, die einem Newcomer die Gestaltung verbessern. Danke. Pard 21:14, 24. Mär 2005 (CET)
- dieser Artikel soll Bestandteil von Wikipedia:WikiReader/Wissen.ungewöhnlich. werden..--^°^ @
- Pro. War mir bisher unbekannt, und jetzt fühle ich mich doch gut informiert. --AndreasPraefcke ¿! 18:35, 29. Jun 2005 (CEST)
- pro ausgezeichneter Artikel. Kleiner Kritikpunkt ist höchstens die fehlende Literatur. --Kurt seebauer 20:29, 29. Jun 2005 (CEST)
- pro Ich kannte das Gesetz schon, aber jetzt kenn ichs noch viel besser! --Bara 2. Jul 2005 15:03 (CEST)
- Literatur: Ich habe ein wenig Literatur hineingetan. Das wenigste davon habe ich selbst
gelesen, mangels Zugänglichkeit. 80.120.190.234 6. Jul 2005 12:58 (CEST)
Literatur
Ich habe die gerade eingefügte Literatur wieder aus dem Artikel herausgenommen. In dieser Form und Menge ist das dem Leser gegenüber eine Zumutung! Kann hier bitte jemand eine Auswahl treffen (max. 1-2 für den Laien verständliche und vielleicht ein Review-Artikel)? --TdL 6. Jul 2005 12:59 (CEST)
Barlow, J. L. and Bareiss, E. H. "On Roundoff Error Distributions in Floating Point and Logarithmic Arithmetic." Computing 34, 325-347, 1985. Benford, F. "The Law of Anomalous Numbers." Proc. Amer. Phil. Soc. 78, 551-572, 1938. Boyle, J. "An Application of Fourier Series to the Most Significant Digit Problem." Amer. Math. Monthly 101, 879-886, 1994. Flehinger, B. J. "On the Probability that a Random Integer Has Initial Digit A." Amer. Math. Monthly 73, 1056-1061, 1966. Franel, J. Naturforschende Gesellschaft, Vierteljahrsschrift (Zürich) 62, 286-295, 1917. Havil, J. "Benford's Law." §14.2 in Princeton, NJ: Princeton University Press, pp. 145-155, 2003. Hill, T. P. "Base-Invariance Implies Benford's Law." Proc. Amer. Math. Soc. 12, 887-895, 1995. Hill, T. P. "The Significant-Digit Phenomenon." Amer. Math. Monthly 102, 322-327, 1995. Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996. Hill, T. P. "The First Digit Phenomenon." Amer. Sci. 86, 358-363, 1998. Knuth, D. E. "The Fraction Parts." §4.2.4B in Reading, MA: Addison-Wesley, pp. 254-262, 1998. Ley, E. "On the Peculiar Distribution of the U.S. Stock Indices Digits." Amer. Stat. 50, 311- 313, 1996. Livio, M. New York: Broadway Books, pp. 232-236, 2002. Newcomb, S. "Note on the Frequency of the Use of Digits in Natural Numbers." Amer. J. Math. 4, 39-40, 1881. Nigrini, M. J. The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies. Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992. Nigrini, M. "A Taxpayer Compliance Application of Benford's Law." J. Amer. Tax. Assoc. 18, 72- 91, 1996. Nigrini, M. "I've Got Your Number." J. Accountancy 187, pp. 79-83, May 1999. Nigrini, M. Digital Analysis Using Benford's Law: Tests Statistics for Auditors. Vancouver, Canada: Global Audit Publications, 2000. Plouffe, S. "Graph of the Number of Entries in Plouffe's Inverter." Raimi, R. A. "The Peculiar Distribution of First Digits." Sci. Amer. 221, 109-119, Dec. 1969. Raimi, R. A. "On the Distribution of First Significant Digits." Amer. Math. Monthly 76, 342- 348, 1969. Raimi, R. A. "The First Digit Phenomenon." Amer. Math. Monthly 83, 521-538, 1976. Schatte, P. "Zur Verteilung der Mantisse in der Gleitkommadarstellung einer Zufallsgröße." Z. Angew. Math. Mech. 53, 553-565, 1973. Schatte, P. "On Mantissa Distributions in Computing and Benford's Law." J. Inform. Process. Cybernet. 24, 443-455, 1988.
Lieber TdL, Dein Literaturstellen-Brandmelder funktioniert ja besser als eine Schweizer Uhr. Ich empfehle die Beibehaltung von drei Quellen aus dieser Literaturliste: 1. Benford selber 2. Newcomb, der der eigentliche Entdecker ist 3. Nigrini - Detection of Income Tax Evasion ...-, weil er wohl weltweit der Mann sein dürfte, der gegenwärtig die meiste Erfahrung in der praktischen Anwendung des Benfordschen Gesetzes hat. Lieben Gruß Pard 6. Jul 2005 13:09 (CEST)
Logarithmus
Habe den Abschnitt Logarithmische Begründung des Benfordschen Gesetzes hierher verschoben, da der Logarithmus an anderer Stelle behandelt wird:
Wie man sich in der Literatur und im Web leicht überzeugen kann, sind alle Versuche, das Benfordsche Gesetz in Umgehung des Logarithmus zu erklären, letztlich schwerer zu begreifen als der Logarithmus. Ist beispielsweise x aus der Gleichung gesucht, dann findet man: , und das ist der Logarithmus von 2 zur Basis 10. Man sagt auch .
Die Mantisse (d.s. die Stellen eines Logarithmus nach dem Komma) definiert die Struktur, den ziffernmäßigen Aufbau, einer Zahl, die Positionen vor dem Komma geben lediglich Auskunft über die Position des Kommas, die Dimension der Zahl. So steht die Mantisse 0,09151 für die Zahl 1,23455374 ( 10^0,09151 = 1,23455374 ), die Mantisse 3,09151 für 1.234,55374 ( 10^3,09151 = 1.234,55374 ). Die Struktur der Zahl ist identisch, nur das Komma hat sich um 3 Positionen nach rechts verschoben.
Anton 19:54, 30. Jul 2005 (CEST)
Zustand des Artikels
Mich überrascht die Qualitätsbeurteilung des Artikels.
Ich finde ihn inhomogen und sehr vorläufig. Daran ändern auch mein Nachtrag der Benfordschen Verteilung und ein Rechenbeispiel wenig. Der Abschnitt Erwartungswert ist ohne Verteilungsfunktion nicht nachvollziehbar. Die Erschütterung des gesunden Menschenverstandes durch das benfordsche Gesetz kommt m.E. viel zu kurz. Anton 21:22, 30. Jul 2005 (CEST)
Erwartungswert
Ich habe den Abschnitt Erwartungswert hierher verschoben:
Ableitung des Erwartungswerts der Benfordverteilung
Auf Basis der oben dargestellten Häufigkeiten je Anfangsziffer würde man zu einem Erwartungswert von rd. 3,44 gelangen. Dieser Wert ist in diesem Fall allerdings nur eine grobe Näherung. Der Erwartungswert beträgt tatsächlich (10-1)/ln10 = 9/ln10 = 3,908650337... Dies deshalb, da der zu erwartende Anteilswert der Anfangsziffer k dem Flächeninhalt unter der hyperbolischen Funktion f(x) = 1/xln10 in den Grenzen von k bis k+1 entspricht. Der Erwartungswert der Benfordverteilung entspricht der Abszisse des Schwerpunkts der Fläche A unter dieser Funktion in den Grenzen von 1 bis 10 (A=1), die als das Integral G(x) der Funktion g(x)= x/Axln10 = 1/Aln10 in den Grenzen von 1 bis 10 wegen G(x)=x/Aln10 das Ergebnis 9/ln10 liefert.
Ich verstehe den Abschnitt nicht. Wer kann helfen?
Wenn p(x) = log(1+1/x), dann ist der Erwartungswert EX= int (log(1 + 1/x)*x dx in den Grenzen von 1 bis 10 -- und ich erhalte dafür den Wert 3.50.
Was sagt mir das?
Das benfordsche Gesetz bezieht sich auf diskrete Verteilungen, weshalb man auch mit dem diskreten Erwartungswert rechnen sollte, wenn ich den Mittelwert der ersten Ziffer wissen möchte. Anton 22:09, 30. Jul 2005 (CEST)
Lieber Anton!
Zum Bruchstückhaften des Artikels
Ja, Anton, Du hast recht. Der Artikel sollte von Grund auf neu konzipiert und dann in einem Guss geschrieben werden. Bislang ist er das Ergebnis von Beiträgen mehrerer Autoren mit unterschiedlichem Schreibstil und Stilmitteln und personentypischen Rechtschreib- und Flüchtigkeitsfehlern, obwohl die Hauptmasse des Artikels immer noch von mir selber stammt. Soviel zu seinen Nachteilen. Gegenüber vielen Artikeln, die es mittlerweile über das Benfordsche Gesetz gibt, hat dieser bei allen Mängeln aber den Vorteil, daß er zeigt, wie man das Gesetz in der Praxis verwenden kann, und zwar nicht ausschließlich zur "fraud detection".
Zum Logarithmus
Den Exkurs über den Logarithmus auf die Diskussionsseite verbannt und ihn durch eine dem durchschnittlichen Leser nicht ohne weiteres zugängliche mathematische Ableitung ersetzt zu haben, sehe ich als didaktischen Fehler, womit nämlich erreicht wird, dass außer den Autoren wieder nur wenige das Gesetz kapieren. Denn in einen Artikel "Logarithmus" guckt nur der, der wirklich muss. Ich weiß zwar nicht, warum das so ist, aber den meisten Leuten graut vor dem Logarithmus. Nur deshalb habe ich diesen einfachen Exkurs geschrieben, damit das Gesetz evtl. besser begriffen wird. Nach Deiner Logik hättest Du auch den Halbsatz, was die Fibonacci-Zahlen sind, streichen müssen, und das wäre didaktisch mindestens ebenso ungünstig gewesen. Wikipedia ist ja längst nicht mehr so leicht zu managen wie ein kleiner Hypertext, zumindest nicht zu gewissen Tageszeiten.
Verbesserungsvorschlag
Man sollte sich bei der Neufassung des Artikels überlegen, ob man nicht gleich die Benford-Verteilung für beliebig lange Anfangssequenzen in beliebigen Zahlensystemen der Form (ln(sequ+1)-ln(sequ))/ln z mit sequ z.B. 1412.... und z = Zahlensystem einführt und damit eine möglichst umfassende Darstellung des Benfordschen Gesetzes präsentiert. Sed cui bono ?
Zur mangelnden Erschütterung des sog. gesunden Menschenverstandes
Die Erschütterung des menschlichen Hausverstandes kommt meiner Ansicht nach nicht zu kurz. Reicht es nicht, daß in einer nach oben unbeschränkten Zahlenmenge des dekadischen Systems mehr als 30% aller Zahlen mit einer '1' beginnen müssen ? Wie verrückt soll Deiner Meinung nach der Hausverstand angesichts solcher Informationen noch spielen ? Hat man erst einmal verdaut, daß dies das 2,71-Fache dessen ist, was der Hausverstand vermutet hätte, wird auch für den Hausverstand wieder alles kreuznormal und logisch.
Was MEINEN Hausverstand so durcheinander bringt, das sind die Fibonacci-Zahlen, die es schon mit den ersten 30 (dreißig) Zahlen zuwege bringen, daß ihre Anfangsziffern die Benford-Verteilung so genau treffen wie kaum eine andere Liste mit so wenigen Zahlen. Da sieht man, wie stark das Benfordsche Gesetz in der Natur verankert sein muß, auch wenn es in der Natur vielleicht so heißt: "Unabhängig von der Größenordnung im Kosmos: Kleines ist immer weit häufiger als Großes". Aber sieht man das Gesetz so wie zuletzt dargestellt, kann der verdrehteste Hausverstand nicht umhin, zuzustimmen: Es gibt mehr Quarks als Atome, mehr Atome als Moleküle, mehr Methan als Naphthalin, mehr Mäuse als Elefanten, mehr kleine Sonnen als Superriesen, mehr kleine Schwarze Löcher als gigantische. Desgleichen gilt für Unternehmen, für die Anzahl von Sprechern einer Sprache (noch...), für Rechnungsbeträge, für Einkommen, für wissenschaftliche Leistungen, Artikel, Kommentare und Repliken, selbst in Wikipedia. Natürlich könnte man in einer Neufassung des ganzen Artikels solche philosophische Gedanken mit einfließen lassen, wohl aber nur, um Gefahr zu laufen, daß der nächste Co-Autor die Wissenschaftlichkeit solcher Gedanken bezweifelt und die betreffenden Passagen löscht oder bei guter Laune hier hereinstellt.
Zum Mittelwert: stetig oder diskret?
Die Logik meiner Mittelwertbetrachtung (3.91), die Deine Kritik ebenfalls nicht unverschont ließ, stammt aus einem wissenschaftlichen Artikel; ich hätte ihn gerne zitiert, aber ich konnte das betreffende pdf auf dem PC in der Eile nicht finden. Wenn ich ihn noch im Web finde, stelle ich Dir den link hier hinein. Das Wesentliche daran ist, daß Du die diskrete Benford-Verteilung beim dekadischen System ersetzen kannst durch die stetige Funktion y=1/xln10 (bei beliebigen Zahlensystemen z durch y=1/xlnz). Das siehst Du bei Integration dieser Funktion in beliebigen Grenzen innerhalb des Intervalls [1;10]. Integrierst Du zwischen so definierten Grenzen [a;b], so erhältst Du (lnb - lna)/ln10, was identisch ist mit der diskreten Betrachtung, sofern a und b ganze Zahlen sind. a und/oder b können aber auch irgendwelche andere nicht ganze reelle Zahlen sein. Der Mittelwert 3.91 entstammt dieser Logik. Die Praxis lehnt sich an eben diese Denkweise an, nimmt 3.90 oder 3.91 und fährt mit ihren Schätzungen besser als mit 3,44 oder mit 3,50. Beide Denkweisen haben etwas für sich. Pard 13:17, 5. Aug 2005 (CEST)
Hallo Pard
Vielen Dank für die Antworten.
Zum Logarithmus: die Grafik des Log-Kreises ersetzt m.E. den Abschnitt zum Logarithmus. Wer den Log-Artikel nicht lesen will, wird auch mit dem Abschnitt nur wenig anzufangen wissen.
Fibonacci: genau. Zufallszahlen weisen diese Eigenschaft nicht auf.
Frage zu Zipf: Hast du vielleicht einen Weg gefunden, wie man nachvollziehen kann, warum sich Benfordsche und Zipf-Verteilung trotz ihrer unterschiedlichen Darstellung so gleichen?
Viele Grüße, Anton 18:57, 6. Aug 2005 (CEST)
Hallo Anton
Das Zipfsche Gesetz und Benford, mmh. Nehmen wir die Rangordnung aller Wörter im Deutschen. Jedem Wort wird eine Rangzahl zugeordnet. Nehmen wir an, es würden üblicherweise nur 199 Worte verwendet; das entspräche vielleicht dem vorherrschenden Wortschatz in einer durchschnittlichen Schnapsbude. Dann könnte jeder dort Anwesende mit etwas Übung statt einer Sequenz von Worten eine Sequenz von Ziffern, die für diese Worte stehen, sagen. Die als Ziffernsequenz im 200-er-System verstanden werden könnte. Jede Ziffernsequenz k hat eine Benford-Wahrscheinlichkeit der Form (ln(k+1)-lnk)/ln200. Ganz ähnlich wäre es mit den Buchstabensequenzen, inkl. Leerzeichen 27 Zeichen, also uminterpretiert im 28-er-Zahlensystem. Bei Zipf werden die untersuchten Werte einer Rangreihung unterzogen und mithin durch eine Ziffer ersetzt. Ab n = 30 beginnen 30% der Ränge mit einer 1, danach sinkt das Verhältnis zugunsten der übrigen Ränge, um ab 100 wieder die 1 zu bevorzugen, was erst ab 200 wieder aufhört, usw. Manchmal habe ich den Eindruck, nicht das benfordsche Gesetz ist ein Spezialfall des Zipfschen Gesetzes, sondern umgekehrt; das benfordsche Gesetz spricht ausschließlich von der Häufigkeit von Ziffern. Die Transformationen, die der Anwendung des Zipfschen Gesetzes vorangehen, machen aus irgendwelchen Zeichen und Symbolen Ziffern. Auch die häufigsten Strukturwörter des Deutschen sind jene Wörter, die die Struktur der Sprache erzeugen, selbst aber eine nahzu vernachlässigbare Bedeutung haben. Das Russische kommt wunderbar ohne der-die-das, ein-eine-ein etc. aus, ohne einen Funken an Bedeutung nicht darstellen zu können. Was man bei all diesen Gesetzmäßigkeiten so schwer kapiert, ist, dass die ZAHLENWERTE SELBST SO GERINGE BEDEUTUNG haben. Es zählt häufig nur der Logarithmus, und von ihm auch nur das, was hinter dem Komma steht. Und erst bei den Logarithmen haben alle die gleiche Chance, was das Kleine gegenüber dem Größeren bevorzugt. Diese Bevorzugung des Kleinen gegenüber dem Großen führt zu den typischen hyperbolischen Verläufen, wobei man oft nicht mehr sagen kann, gilt nun Benford, Zipf, Exponentialverteilung oder Logarithmische Normalverteilung, Pareto oder ... ? Statistisch kann man leider nie sagen, was wirklich GILT, sondern nur, was im konkreten Fall am besten PASST.
Einen mathematisch schlüssigen Übergang von Benford zu Zipf, den habe ich leider nicht parat. Die natürliche Tendenz zu hyperbolischen Verteilungen ist aber evident. Das betont auch B.Mandelbrot. Liebe Grüße Pard 19:46, 6. Aug 2005 (CEST)
Nochmals hallo Anton
ZIPF ~ BENFORD
Ich habe mir aus dem Artikel über das zipfsche Gesetz die Statistik über die Häufigkeiten von 32 Zeichen im Deutschen vorgenommen. Leider vernachlässigt diese Statistik, daß es auch Strichpunkte, Doppelpunkte, Anführungszeichen etc. und nicht nur Punkt und Komma in deutschen Texten gibt. Wie auch immer, ich habe diese 32 Zeichen als Symbole des 33-er-Zahlensystems betrachtet und dabei herausgefunden, dass das benfordsche Gesetz die Zeichenhäufigkeit im Deutschen noch besser wiedergibt als das zipfsche Gesetz. Der Unterschied im Chi² ist zwar marginal, aber es ist über 30% niedriger als beim zipfschen Approach.
- Um eine passable Statistik zu haben, hatte ich mich im Artikel auf Buchstaben beschränkt und auch nicht zwischen Groß- und Kleinbuchstaben unterschieden.
Vielen Dank für das Testen mit beiden Verteilungen. Den nächsten Schritt habe ich bisher gescheut: was ist, wenn die Mandelbrot-Zipf-Verteilung mit den zwei zusätzlichen Fit-Parametern die Benford-Verteilung numerisch gut annähert? Wie soll man das analytisch nachvollziehen, wenn es mir bereits bei den einfachen Verteilungen nicht gelingt? Anton 23:15, 8. Aug 2005 (CEST)
BENFORD
Hast Du schon bemerkt, dass die Häufigkeit der '1' die Summe aus den Häufigkeiten der '2' und der '3', aber auch die Summe aus den Häufigkeiten der '3','4' und der '5', aber auch der '4','5','6' und der '7' usw. ist ? Das gilt im übrigen für alle Zahlensysteme. Liebe Grüße Pard 12:48, 8. Aug 2005 (CEST)
benfordsches Gesetz wäre angeblich Spezialfall des zipfschen Gesetzes
Ich stelle den Satz: "Das benfordsche Gesetz kann als Spezialfall des zipfschen Gesetzes angesehen werden." mal hier herein. Ich glaube nämlich, dass das so nicht stimmt.
1. Das zipfsche Gesetz beruht auf einer hyperbolischen Funktion zweiten Grades, deren Stammfunktion eine Hyperbel der Form F = C/R oder einfach F(x) = c/x ist. Die Stammfunktion der Benford-Funktion f(x) = 1/xlnB (B für Zahlenbasis) ist eine logarithmische Funktion.
2. Die Benford-Verteilung ist logisch ableitbar, das sogenannte zipfsche Gesetz ist empirisch gefunden; erst danach ist eine mathematische Entsprechung gesucht worden, die, anders als beim benfordschen Gesetz, der willkürlichen Wahl einer optisch naheliegenden mathematischen Funktion entsprang. Das ist aber höchst unwissenschaftlich, würde Sir K.Popper gesagt haben, weil er vor seinem Tod stets den umgekehrten Weg forderte. Was er jetzt fordert, weiß keiner.
3. Das zipfsche Gesetz wird in der Linguistik mit höchst mäßigem Erfolg probiert, es stimmt einfach nicht hinreichend genau. Das benfordsche Gesetz stimmt in seinen Einsatzgebieten hinreichend genau, und zwar mit wachsender Stichprobe immer genauer.
4. Ich halte das zipfsche Gesetz, auch wenn es einen netten Namen hat, für eines der zahlreichen Artefakte der Wissenschaft. Den Häufigkeiten sind Nominaldaten, wie Buchstaben (die in jeder Sprache anders geordnet sind) oder Wörter, unterlegt. Man weiß nicht, wie man diese Daten auf der Abszisse objektiv ordnen soll. Dann rangreiht man die Häufigkeiten nach fallenden Werten und erhält damit zwingend eine monoton fallende Funktion. Da die Werte nicht um einen konstanten Wert fallen, ergibt sich fast zwangsläufig eine sortierte Aneinanderreihung, die wie eine Hyperbel aussieht. Ich meine, als Zipf das sah, sagte er, ah, eine Hyperbel, und ihm fiel ein: y = 1/x, multipliziert mit einem Faktor c. Genauso wie die linguistischen Sortierungen kann man die Intelligenzquotienten der Passagiere der S-Bahn sortieren, und man wird wiederum eine "hyperbolische Gesetzmäßigkeit" finden. B. Mandelbrot dürfte das erkannt haben, weil er offenbar das zipfsche Gesetz zu reparieren versuchte. Ich erinnere mich eines Kommentars eines Wikipedianers auf der Diskussionsseite des zipfschen Artikels, der meinte, er verstehe die Deduktionen rein gar nicht, weil er weder Linguist noch Mathematiker sei, aber ihn mute all das wie eine Tautologie an. Er hat ja recht: Diese sortierten Daten sagen nur aus: "Größere Häufigkeiten sind größer als solche, die kleiner sind als die größeren." Quae sapientia !
5. Die Summe aller Häufigkeiten beim zipfschen Gesetz ergibt nicht nur nicht 100%, sie steigt bei wachsender Zahl an Elementen über 100%. So ein GAU passiert bei Benford nie.
6. Das zipfsche "Gesetz" entspricht haargenau der Benford-Funktion 1/xln65 eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65). Das zipfsche Gesetz ist daher wahrscheinlich nicht unentbehrlich. Man könnte jetzt wieder mutmaßen, vielleicht liegt die zipfsche Sortierroutine dem genetischen Code, der ja auch 64 Zeichen hat (A,C,G,T im Dreierpack ergibt 4³ = 64 Zeichen), oder der Schrift der Japaner zugrunde, vielleicht auch dem durchschnittlichen Verrentungsalter in Nordossetien. Liebe Grüße Pard 15:42, 9. Aug 2005 (CEST)
Benford -> Zipf + Paretto
Hallo Pard,
Du schreibst: Das zipfsche "Gesetz" entspricht haargenau der Benford-Funktion 1/xln65 eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65).
Leider nicht ganz, siehe Vergleichsgrafik unter Zipf. Bei kleinen Werten treten Abweichungen auf, die nicht von der Normierung abhängen, sich aber u.U. durch weitere Parameter (Mandelbrot) verringern lassen. Die Normierung ist bei der Benford-Funktion ohne Zweifel eleganter, bei Zipf aber auch kein großes Problem (Taylor-Näherung).
Wenn sich beide Verteilungen zusammen führen ließen, sollte Zipf ein Unterpunkt von Benford werden, ebenso wie die Pareto-Verteilung...
Anton 18:36, 9. Aug 2005 (CEST)
Benford -> Zipf + Pareto
Hallo Anton,
Das Problem beginnt ganz in den Anfangsgründen. Der zipfsche Ansatz ist hyperbolisch. Die Integralkurve der Zipfverteilung ist eine Hyperbel der allgemeinen Form F(x) = c/x, die im Quadranten (x>0;y>0) von links oben nach rechts unten verläuft. Daher ist die Zipf-Funktion eine Funktion der Form f(x) = k/x², die einen ähnlichen Verlauf nimmt. Die Benford-Funktion ist von der Form 1/xlnB, die Integralkurve lautet daher F(x)= lnx/lnB, die im oben definierten Quadranten von links unten nach rechts oben verläuft. Wenn wir die Stammfunktionen miteinander vergleichen, sehen wir den Unterschied, der evident ist.
Das Problem ist auch, dass das zipfsche Gesetz - ebenso wie das von Lotka und jenes von Bradford, wohl eher durch eine Art geometrischer Verteilung darstellbar ist, und dass deshalb beide Gesetze quasi entbehrlich wären. Zudem hat die Rangreihung von Häufigkeiten fast immer die Tendenz, hyperbolisch auszusehen.
Wenn dann noch nach Buchstaben oder Worten sortiert wird, kommt mir das so vor, als würde ich die Benford-Verteilung darstellen, indem ich die Anfangsziffern auf der Abszisse nach deren Anfangsbuchstaben im Alphabet reihte, was in fast allen Ländern auf einen unterschiedlichen Verlauf hinaus liefe. Wie Du möglicherweise gelesen hast, bezweifle ich die Existenz des zipfschen Gesetzes daher generell, zumal auf der Abszisse vergleichbarer Unfug gemacht wird. Zipf war ein anerkannter Linguist von Harvard; Mathematiker war er keiner. Als Linguist staunt man sicher bald über was, wenn 's mathematisch wird.
Dieselbe Methode, die Zipf verwendet hat, wurde mir vor 2 Jahren von einem entfernten Spross einer bekannten europäischen Adelsfamilie mit stolzgeschwellter Brust präsentiert (in anderem statistischen Zusammenhang). Ich war versucht, diesen Approach nach ihm zu benennen, habe den Namen aber dann doch, aus Gründen der Wahrung der Anonymität, zwiefach tabuistisch entstellt und nenne den Approch seither GELBBROT-METHODE. Mit ihrer Hilfe kann man herrliche Fakes produzieren. Der Erkenntnis ist so was freilich nicht dienlich. Ich bezweifle nicht, dass es bei Sortierung von Häufigkeiten zu einem hyperbolischen Verlauf kommt. Aber das liegt m.E. mehr am Befehl SORT, weniger an Zipf.
Liebe Grüße Pard 11:11, 10. Aug 2005 (CEST)