Wikipedia:Wikipedistik/Wachstumsprognose
Bisherige Entwicklung der Artikelzahl seit 2004
Seit etwa März 2004 wächst die deutschsprachige Wikipedia linear mit durchschnittlich 400 neuen Artikeln pro Tag (Quelle: Daten aus Erik Zachtes Wikistat (bis April 2004) sowie Wikipedia:Meilensteine). Der Korrelationskoeffizent R2 liegt über 0.99. Betrachtet man die Zeit von ab April bis Oktober 2005, so ist das Wachstum mit etwa 457 neuen Artikeln pro Tag wieder etwas stärker, allerdings ist das Wachstum geringfügigen Schwankungen unterworfen. Ob die deutschsprachige Wikipedia vollständig in eine Phase linearen Wachstums übergegangen ist oder der eher lineare Verlauf Teil eines Übergangs in ein anderes Wachstumsverhalten ist, kann nur vermutet werden. Im ersten Quartal 2006 ist jedenfalls ein Anstieg des täglichen Artikelzuwachses auf knapp 500 auszumachen, betrachtet man nur die letzten Februarwochen/Anfang März, ergibt sich sogar ein Tagesschnitt von 520 für diese 30 Tage.
Aktuelle Entwicklung 2006
- In den ersten sechs Märztagen wuchs die deutschsprachige Wikipedia täglich um durchschnittlich 597,67 Artikel (*
- In den letzten 30 Tagen (Stand: 6. März, 23:59 Uhr) wuchs die dtspr. Wikipedia um täglich durchschnittlich 520,4 Artikel(**
- Mit Stand vom 5. März 2006 wuchs die deutschsprachige Wikipedia im Jahr 2006 täglich um durchschnittlich 492,79 Artikel (***
Diese Zahlen lassen ein deutliches Ansteigen des täglichen Artikelzuwachses erkennen. Es kann jedoch nicht ausgeschlossen werden, dass es sich bei den stark erhöhten Zuwächsen der letzten Wochen nur um vorübergehende Ausreißer handelt, wie es sie immer wieder gibt. So war zwischen Mitte November und Ende Dezember 2005 eine deutliche Delle nach unten in der dt. WP-Wachstumskurve auszumachen, was den "15.000-Artikel-erreich-Dauer-Durchschnitt" (laut Meilensteine) um über 100 Artikel täglich sinken ließ. Seither setzt sich das Wachstum in dem Maße fort, wie es bereits auch in den Monaten vor November 2005 stattgefunden hat, nämlich 10 bis 11 Tage für 5000 Artikel. Geht man von einem leichten Wachstum aus, was anhand der aktuellen März-Zahlen sicher nicht fehl am Platz ist, kann man behaupten, dass für das restliche Jahr durchschnittlich 10 Tage für 5000 Artikel benötigt werden, da gegen Jahresende die Dauer laut aktuellen Zahlen vermutlich zwischen 9 und 10 Tagen betragen wird, was die derzeitige Spanne von 10 bis 11 Tagen ausgleichen dürfte. Das sind natürlich nur Spekulationen, die jedoch nicht allzuweit von der Realität abschweifen können, sofern keine außerordentlichen Ereignisse statt finden, was den täglichen Artikelzuwachs betrifft.
Nach aktueller (7. März), vorsichtiger Schätzung (10 Tage für 5000 Artikel), sind daher:
- 400.000 Artikel am 14. Mai
- 500.000 Artikel am 30. November
- 515.500 Artikel am 31. Dezember 2006
erreicht. (Siehe auch: Wikipedia:Wette für 2006)
(* laut Spezial:Newpages; minutiös genaue Abgrenzung; nachträgliche Löschungen (nach 7.3., 0 Uhr) nicht berücksichtigt;
(** Berechnung aus Wikipedia:Meilensteine
(*** Laut Spezial:Newpages 15.612 neue Artikel zwischen 5.2., 0:00 h und 6.3., 23:59 h, divid. durch 30 Tage
Berechnungen auf Grundlage der Wikipedia:Meilensteine
Da die Wikipedia:Statistik derzeit noch auf dem Stand von November 2005 fest sitzt, hier eine Ableitung zur aktuellen Artikelzuwachsentwicklung aus den Wikipedia:Meilensteinen.
Die Liste gibt die Anzahl der Tage wieder, die für 5.000 neue Artikel benötigt werden. Die Liste beginnt bei 300.000. Der Tagesdurchschnitt des Artikelzuwachses wird anhand der Zeitspanne berechnet, die für den Zuwachs der jeweils letzten 15.000 Artikel benötigt wurden. Diese, 3 Meilensteine übergreifende Zeitspanne, soll eine glaubwürdigere Vergleichbarkeit der Werte ermöglichen, womit Tendenzen besser erkannt werden können. Die Angaben erfolgen in Tausendern:
300 auf 305: 10 Tage (Erreichung von 305.000 am 17.10.2005)
305 auf 310: 10 (27.10.)
310 auf 315: 11 (7.11.) Ø täglicher Zuwachs der letzten 3 Meilensteine (quasi ein gleitender Durchschnitt): 484
315 auf 320: 13 (20.11.) Ø 441
320 auf 325: 18 (8.12.) Ø 357
325 auf 330: 12 (20.12.) Ø 349
330 auf 335: 13 (2.1.2006) Ø 349
335 auf 340: 10 (12.1.) Ø 429
340 auf 345: 11 (23.1.) Ø 441
345 auf 350: 10 (2.2.) Ø 484
350 auf 355: 10 (12.2.) Ø 484
355 auf 360: 11 (23.2.) Ø 484
360 auf 365: 10 (5.3.) Ø 484 täglich
365 auf 370:
370 auf 375:
375 auf 380:
380 auf 385:
385 auf 390:
390 auf 395:
durchschnittliche Tageszuwächse je Monat
- der durchschnittliche, tägliche, Artikelzuwachs im Januar: 501,24
- der durchschnittliche, tägliche, Artikelzuwachs im Februar: 482,14
- der durchschnittliche, tägliche, Artikelzuwachs im März (hier: exakte Berechnung*): 597,67
Erläuterungen zur Berechnung und Genauigkeit der Zahlen: Aus den Zeitspannen, die für je 5000 Artikel benötigt werden, lässt sich durch Abgrenzung (5000 Artikel, die in einer Zeitspanne, die 2 Monate übergreift, der Wikipedia zuwachsen, werden rechnerisch auf das jeweilige Monat umgerechnet. Am Beispiel 23.2.06 bis 5.3.06 bedeutet das, dass die 5000 Artikel durch die 10 Tage dividiert werden, und dann auf die beiden Monate je nach Anzahl der Tage, umgerechnet werden. Das sind in diesem Beispiel jeweils 5 Tage - bedeutet also 2500 Artikel entfallen auf jedes der beiden Monate, was diese Zeitspanne betrifft) Zu diesen abgegrenzten Zahlen werden dann noch die "eindeutigen" Zahlen (Zahlen die nicht auf 2 Monate aufgeteilt werden müssen) hinzugezählt. In unserem Beispielmonat Februar ergibt dies 1000 (rechnerisch abgegrenzte) Artikel aus der Zeitspanne 23.1.06 bis 2.2.06 + 10.000 Artikel aus der Zeitspanne 2.2. bis 23.2. + 2500 (rechnerisch abgegrenzte) Artikel aus der Zeitspanne 23.2. bis 5.3. = 13.500 Artikel im Februar. Diese Zahl wird dann durch die Anzahl der Tage des Monats dividiert. In diesem Beispiel 28. Ergibt 482,14
Dass diese Zahl natürlich in einem gewissen, geringen, Ausmaß von der tatsächlichen Zahl abweicht, die man erlangen würde, hätte man exakte Zahlen zu jedem einzigen Tag, ist natürlich klar. Schon wesentlich exakter wären die Ergebnisse, würde man nicht nach Monaten, sondern nach Meilenstein-Zeitspannen umrechnen. Hier wäre dann die einzige Ungenauigkeitsquelle diese, dass die Tageszeit, zu der der jeweilige Meilenstein erreicht wurde, nicht bekannt ist, und in Extremfällen die Summe um mehrere Hundert Artikel pro Monat vom errechneten Wert abweichen kann, was sich auf den Tagesdurschnitt durchaus mit bis zu 20 Artikeln auswirkt. Diese "Tageszeit-Ungenauigkeit" trifft natürlich auch auf die Monatsabgrenzungen zu, wobei hier noch die "Tages-Ungenauigkeit" hinzukommt, da die täglichen Zuwachszahlen auch einer gewissen Schwankung unterliegen, diese jedoch bei der "Monatszuwachsberechnung laut Meilensteinen" auf die gesamte Zeitspanne verteilt werden, was das Ergebnis wiederum merkbar verfälschen kann.
Daraus lernen wir, die folgenden Zahlen sind (leider nur) mit äußerster Vorsicht zu genießen, da theoretisch Abweichungen im mittleren, zweistelligen Bereich möglich wären. Das ganze wird natürlich dadurch etwas relativiert, da diese Ungenauigkeit auf jedes Monat in gleichem Maße zutrifft und vor allem, da die tatsächlichen täglichen Schwankungen in Wahrheit vergleichsweise äußerst gering sind, meist zwischen 10 und 30 %, wodurch sich die Zahlen der "5000er-Zeitspannen", die ja meist um die 10 Tage betragen, in der Regel nur noch kaum unterscheiden (können). Sprich: Ist eine Tendenz erkennbar, so stimmt diese auch tatsächlich, da die rechnerische Abgrenzung auf zwei Monate in einem Vergleichszeitraum von mehreren Monaten relativiert wird. Lediglich die exakten Zahlen sind nur als Richtwerte anzusehen. Denn logischerweise werden die Zahlen immer genauer, je länger der Rechenzeitraum ist. Also für das ganze Jahr 2006 wäre die Abweichung vom tatsächlichen Wert verschwindend gering. Ich würde behaupten ein paar Hundert (da Ungenauigkeiten lediglich bei den abgegrenzten Zahlen aus den Zeitspannen, die die Jahreswechsel übergreifen, auftreten können, und aufgrund der relativ gleichmäßigen Artikelzuwachsrate nicht höher als ein paar hundert sein können) dividiert durch den Artikelzuwachs in 365 Tagen, der locker über 100.000 sein wird, gehen wir mal von 120.000 aus, was sich dann auf den Tagesdurchschnitt nicht mal im Ausmaß von 0,01 (nämlich 0,04 laut diesem Beispiel) auswirken würde.
Diese Zahlen sind daher lediglich als Orientierungshilfe anzusehen, werden aber umso genauer, je länger die Berechnungszeiträume sind. Die monatlichen Abweichungen vom tatsächlichen Tagesdurchschnittzuwachs dürften in einer Abweichungsspanne von 3 bis 7 Artikel/Tag liegen (wenn man von den üblichen täglichen Artikelzuwachsschwankungen ausgeht).
* Berechnung laut Angabe in Spezial:Newpages mit exaktem Berechnungszeitraum 1. März, 0 Uhr bis 6. März, 23:59 Uhr = 3.586 neue Artikel (Löschungen nach 6. März, 23:59 Uhr, nicht berücksichtigt)
Lineares Wachstum
Inhaltliche Aktualität des Absatztextes: Anfang November 2005
Seit April 2004 haben wir ein relativ konstantes lineares Wachstum von durchschnittlich 350 bis 400 neuen Artikeln pro Tag (seit der Wikipedia-Konferenz ca. 500 pro Tag). An manchen Tagen wurden auch schon über 600 Artikel eingestellt. In den Monaten Februar bis April 2004 wuchs die deutsche Wikipedia kurzzeitig exponentiell mit einer durchschnittlichen Wachstumsrate von bis zu 1 %, die von da an wieder abnahm. Mit zunehmender Größe der Wikipedia ist zu erwarten, dass das relative Wachstum weiter abnimmt, selbst bei leichten Anstiegen der absoluten Anzahl täglich neuer Artikel.
Mit den folgenden PHP-Formeln können die prognostizierten Termine für das Erreichen bestimmter Artikelanzahlen bei linearem und exponentiellem Wachstum ermittelt werden:
- date('d.m.Y', strtotime(date('Y-m-d', time()).' + '.floor(($milestone-$articles_now)/$abs_increase).' days'));
- date('d.m.Y', strtotime(date('Y-m-d', time()).' + '.floor(log($milestone/$articles_now)/log($rel_increase)).' days'));
wobei die Variablen folgende Bedeutung haben:
- $articles_now: aktuelle Artikelanzahl (in der Tabelle: 312805)
- $abs_increase: absoluter Zuwachs pro Tag (in der Tabelle: 400)
- $rel_increase: relativer Zuwachs pro Tag (in der Tabelle: 1.0014)
- $milestone: zu erreichende Artikelanzahl
Anzahl | Prognose bei 400 täglich | Prognose bei 0,14 % täglich |
---|---|---|
375.000 | 5.04.2006 | 22.03.2006 |
400.000 | 6.06.2006 | 8.05.2006 |
450.000 | 9.10.2006 | 31.07.2006 |
500.000 | 11.02.2007 | 15.10.2006 |
750.000 | 28.10.2008 | 2.08.2007 |
1.000.000 | 16.07.2010 | 22.02.2008 |
Stand der Aktualisierung der Tabelle: 1.2.2006, 349.800 Artikel
Die meisten Wachstumskurven haben einen s-förmigen Verlauf. Sollte dies auch auf die Wikipedia zutreffen, so befinden wir uns zur Zeit in der Wachstumsphase und in diesem Bereich eines Wachstumprozesses ist der Kurvenverlauf fast linear. Doch auch bei Wikipedia wird eine Sättigung eintreten und der Kurvenverlauf sich abflachen. Der Volksmund sagt: "Die Bäume wachsen nicht in den Himmel!"
Es ist jedoch weniger damit zu rechnen, dass es mit der Wikipedia "bergab" geht. Höchstens das Wachstum wird prozentual oder vielleicht auch mal absolut schwächer werden: es geht dann höchstens nicht mehr ganz so steil bergan und wegen der Menge irgendwann nur noch unmerklich.
Wenn wirklich Artikel absolut gesehen weniger werden sollten, dann trifft das wohl erst in einer ziemlich fernen Zukunft ein, in einer Qualitätsbildungs-, Konsolidierungs- und Bereinigungsphase. Wenn es dann zahlenmäßig bergab geht, dann geht es aber qualitativ bergan. Um bei der Bergsteigersprache zu bleiben: der Gipfel ist dann evtl. nicht mehr höher, den wir erklimmen, aber der Schwierigkeitsgrad/Anspruch steigt.
Mögliche zukünftige Entwicklungen: aktuelle Prognosen und Thesen
Neue Vermutungen, Spekulationen, Theorien, Thesen und Prognosen können hier veröffentlicht und nachvollzogen werden. Scheint sich eine zu bewahrheiten, kann sie natürlich zur „aktuellen Entwicklung“ verschoben werden, wo die Theorie dann gepflegt wird, bis sie nicht mehr aktuell ist, oder nachweislich nicht (mehr) zutrifft.
abstrakte Theorien
Theorien à la „Was wäre wenn“:
Wie die deutsche Wikipedia innerhalb von 10 Jahren 25 Mio. Lemma erreichen könnte
Prognose vom 16. September 2005 für das Jahr 2010: 5 Mio. Lemma; für 2015: 25 Mio. Lemma
Die Wikipedia.de umfasst zurzeit mit etwa 300.000 Einträgen nur einen winzigen Bruchteil der sinnvollen Lemma.
Allein das "Allgemeine Lexikon der Bildenden Künstler von der Antike bis zur Gegenwart", auch Thieme/Becker genannt, umfasst in seiner aktuellen CD-Version über 280.000 Künstler. Die ersten 148.180 Künstler- sowie 15.082 versteckten Biographien wurden in den Jahren 1907 bis 1950 im wesentlichen von ca. 400 Autoren geschaffen. Der Lexikograph Hans Vollmer fügte 1953 bis 1962 noch einmal 47.229 Künstlerbiographien hinzu.
Diese Viertelmillion Einträge umfasst also von den Künstlern nicht die Komponisten und auch keine Dichter, keine Sänger, Schauspieler und Regisseure. Es gibt auch noch Tänzer, Artisten, Gedächtniskünstler, Zauberer, Kaberettisten und viele weitere kleinere Künste von Puppenspielern bis Schattenspielern. Schon die Künstler bieten Stoff für über 3 Mio. Einträge (hauptsächlich Autoren).
Wenn alle Künstler erfasst wären, wäre noch kein Erfinder, Forscher, Naturwissenschaftler, Entdecker, Mathematiker, Philosoph, Geschichtswissenschafter, die hundert größten Entwickler der Funktechnik etc., etc. erfaßt.
Könige, regierende Fürsten, Politiker, Bürgermeister gibt es über die Jahrhunderte zu Hundertausenden.
Feldherren und Militärs, die eine Rolle in der Geschichte gespielt haben, gibt es auch über Hundertausend.
Bischöfe, Lamas, Prediger, Sektenführer, Päpste, Patriarchen und viele weitere Religionsführer haben auch Geschichte mitbestimmt, sicher finden sich in der Literatur über Hundertausend.
Abertausende haben sich um ihre Heimatgemeinden so verdient gemacht, dass Straßen nach ihnen benannt wurden oder sie zu Ehrenbürgern wurden. Allein die mehrhundertseitige über 150 Jahre alte (und damit urheberrechtsfreie) Chronologie meiner Heimatstadt mit mehrhundertjähriger Geschichte wäre Grundlage für über tausend sinnvolle Einträge. Ein pensionierter Lehrer mit Zeit, Liebe zur Geschichte, seiner Vaterstadt, der Chronologie kann nur einfach so in einem Jahr 1.000 Einträge zu unserer Stadt einstellen.
Hinzukommt, daß weltweit neue "relevante" Persönlichkeiten täglich in weitaus größerer Zahl entstehen, als neue Artikel entstehen, dh. die Schere zwischen vorhandenen und potentiellen Personenartikeln öffnet sich immer weiter.
Auch warten noch einige hundertausende Städte, Dörfer, Berge, Flüsse, Bäche weltweit sowie über 2 Millionen Tier- und Pflanzenarten auf ihren Eintrag. Es sind aber auch einige zehntausend untergegangene Siedlungsplätze wiederentdeckt, ausgegraben, erforscht und bezeichnet worden.
Wenn nur eine Million der über 100-Millionen Menschen mit Muttersprache Deutsch sich an den PC setzt und anfängt, jeden Tag eines der oben beschriebenen Lemma einzugeben, dann (Server auf Google-Niveau vorausgesetzt) gäbe es nach einem Jahr 365 Millionen Einträge.
Für diese Zahl reichen schon die pensionierten Akademiker mit Internetanschluss und vollem Bücherregal, die es heute schon gibt.
Für 10.000 gute Bilder würden in meiner kleinen Stadt schon der Leicaclub reichen, überwiegend pensionierte Akademiker aus praktisch allen Fachrichtungen vom Arzt bis zum Chemiker.
Nur 10.000 Wiki-Freaks - Studenten, Pensionäre oder sonst Leute mit Zeit und Lust - die jeden Tag drei Einträge machen, haben in weniger als drei Jahren über 10.000.000 Einträge geschaffen.
Und allein das "Allgemeines Lexikon der Bildenden Künstler von der Antike bis zur Gegenwart" mit seinen über 250.000 bildendenden Künstlern, das weltweit größte Lexikon dieser Art, das über zwei Weltkriege nicht aufgegeben wurde, beweist, dass die Deutschen so etwas mögen und deshalb machen.
Internet und Wikipedia müssen nur in das Milieu der örtlichen Historischen Vereine, der Numismatiker, Naturfreunde, Vogelbeobachter, Technikvereine, etc. diffundieren. Ich sage in 5 Jahren mindesten 5 Mio. Einträge und in zehn Jahren mindestens 25 Mio. Einträge voraus. Das ist nur das etwa Hundertfache des Thieme/Becker.
Widerlegte Thesen
Ältere Theorien, Prognosen und Thesen, die sich nachweislich nicht bewahrheitet (Blick in die Statistik) haben, werden hierher verschoben, um neuen Theorien Platz zu machen. Alte Theorien können hier nachgelesen werden.
Die deutsche Wikipedia folgt der englischen Wikipedia
Inhaltliche Aktualität des Absatztextes: Ende 2004/Anfang 2005
Die de-Wikipedia ist die zweitgrößte nach en (siehe [1]).
Wagen wir die Annahme, dass die Wachstumskurve von de mit dem Wachstum von en in irgendeiner Weise korrelliert. Im Juni 2004 erreichte die Deutsche eine Artikelzahl, die die Englische 17 Monate zuvor hatte. Dieser "zeitliche Abstand" verringerte sich seither auf 14 Monate im September 2004 und auf 12 Monate im Dezember 2004. Sollte der Abstand von 12 Monaten konstant bleiben, wird die Deutsche Wikipedia 300.000 Artikeln ca. im Juli 2005 erreichen. Der Abstand scheint sich in den letzten Monaten jedoch wieder zu vergrößern. Die englische Wikipedia scheint seit Anfang 2004 wieder exponentiell zu wachsen, während die deutsche Wikipedia seit April 2004 nur noch linear wächst.
Dass die deutsche Wikipedia momentan immerhin noch rund 1/3 so viele Artikel wie die englische hat und damit noch immer die zweitgrößte Sprachversion ist, ist zwar schön, aber die Tendenz ist eben schon seit Monaten fallend. Wenn es so weitergeht, hat de bald wieder nur noch 1/4 von en, dann 1/5...
Diese unterschiedlichen Wachstumsraten lassen sich verschiedenartig erklären:
- Von allen Benutzern, die www.wikipedia.org besuchen gehen gemäß alexa.com 63% auf en, 9% auf ja, 8% auf de, 4% auf es. Sprich, die de-Wikipedia ist noch nicht so in der Gesellschaft angekommen wie die en-Wikipedia. Jetzt, wo auch die deutschen Medien auf die Wikipedia aufmerksam werden kann sich das jedoch bessern. Vor kurzem lag der Prozentsatz noch bei 3%. Der Abstand ist aber immer noch immens.
- Ganz eindeutig die unerträgliche Langsamkeit von Wikipedia, die auch das reine Lesen zur Qual macht. En wird in Frankreich gecached (Squid Proxy), de läuft in Florida. Dies sorgt für große Antwortzeiten. Besserung ist eventuell mit dem von Yahoo gespendetem Serververbund zu erwarten.
- Wikipedia hat in Deutschland inzwischen eine gute Durchdringung. En hat den Weltmarkt, mit vielen Gebieten in denen Wikipedia bis jetzt kaum bekannt ist.
- Die englische Sprache hat mit 340 Millionen etwa 3,4 mal so viele Muttersprachler wie die deutsche Sprache (100 Millionen). Englisch hat inklusive Zweitsprachlern sogar mehr als zehnmal so viele Sprecher.
- Deutsche Wikipedia-Artikel werden laut Alexa nur rund ein Zehntel mal so oft gelesen wie die englischen.
- Wikipedia (de) wird nicht die nötige (und auch zustehende) Geltung zugetan.
- Die meisten Artikel in der de-Wikipedia sind deutlich umfangreicher und besser geschrieben als in der en-Wikipedia.
- De besitzt ein ganz anderes Qualitätsmaß als en. So werden oft Artikel wegen fehlender Relevanz einfach wieder gelöscht. Hierbei ist die Relevanz sehr hoch angesetzt. Das bedeutet, dass viele Artikel, die in en sind, niemals in de sein werden. Auf en gilt im Wesentlichen: ein Artikel wird nur gelöscht, wenn er eine URV ist oder absoluten Schwachsinn enthält. Stubs werden nicht gelöscht, sondern mit einem "Stub"-Label versehen und bleiben, bis sie jemand erweitert. "Irrelevante" Lemmata werden nicht gelöscht, außer sie sind wirklich nachweislich total irrelevant. Auf de dagegen werden Stubs als Ärgernisse angesehen, die man besser löscht, damit jemand anders den Artikel ganz von neu schreiben kann. Und Artikel, die die strengen "Relevanzkriterien" nicht erfüllen, fliegen raus, auch wenn sie gut sind.