Wikipedia:Wikipedistik/Wachstumsprognose

Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 24. September 2005 um 22:25 Uhr durch Wiegels (Diskussion | Beiträge) (Annahme: Lineares Wachstum: Formel, Variablenliste, Zahlenformat). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Prognosen für die Artikelanzahl

Datei:Wachstumskurve Wikipedia de 090805.png
Wachstumskurve der deutschsprachigen Wikipedia, Stand 9. August 2005. Wachstumskurven aller Sprachen im Vergleich

Annahme: Lineares Wachstum

Seit April 2004 haben wir ein relativ konstantes lineares Wachstum von durchschnittlich 350 bis 400 neuen Artikeln pro Tag (seit der Wikipedia-Konferenz ca. 500 pro Tag). An manchen Tagen wurden auch schon weit über 600 Artikel eingestellt. Zurzeit (Juli 2005) liegt das relative Wachstum bei etwa 0,14 % täglich, was einer stetigen Abnahme entspricht. In den Monaten Februar, März und April 2004 wuchs die deutsche Wikipedia kurzzeitig exponentiell mit einer durchschnittlichen Wachstumsrate von 0,5 bis 1 %, die von da an aber wieder abnahm. Mit zunehmender Größe der Wikipedia ist zu erwarten, dass das relative Wachstum weiter abnimmt, selbst bei leichten Anstiegen der absoluten Anzahl täglich neuer Artikel.

Mit der folgenden PHP-Formel können die prognostizierten Termine für das Erreichen bestimmter Artikelanzahlen bei linearem Wachstum ermittelt werden:

date('d.m.Y',strtotime(date('Y-m-d',time()).' + '.floor(($milestone-$articles_now)/$articles_per_day).' days'));

wobei die Variablen folgende Bedeutung haben:

  • $articles_per_day: Anzahl neuer Artikel pro Tag (in der Tabelle: 400)
  • $articles_now: aktuelle Artikelanzahl (in der Tabelle: 274759)
  • $milestone: zu erreichende Artikelanzahl
Anzahl Prognose bei 400 täglich Prognose bei 0,14 % täglich
275.000 15.08.2005 15.08.2005
300.000 17.10.2005 16.10.2005
325.000 18.12.2005 13.12.2005
350.000 19.02.2006 03.02.2006
375.000 22.04.2006 25.03.2006
400.000 24.06.2006 10.05.2006
425.000 25.08.2006 22.06.2006
450.000 27.10.2006 02.08.2006
475.000 28.12.2006 10.09.2006
500.000 01.03.2007 16.10.2006
750.000 15.11.2008 02.08.2007
1.000.000 02.08.2010 24.02.2008

Stand der Aktualisierung: 15.08.2005, 12:24:30, 274759 Artikel

Übrigens: Falls es bei dem Wachstum von 0,14 % täglich bleiben würde, dann hätten wir in zehn Jahren (am 15. August 2015) 45.484.129 Artikel und 63.678 neue Artikel pro Tag.

Die meisten Wachstumskurven haben einen s-förmigen Verlauf. Sollte dies auch auf die Wikipedia zutreffen, so befinden wir uns zur Zeit in der Wachstumsphase und in diesem Bereich eines Wachstumprozesses ist der Kurvenverlauf fast linear. Doch auch bei Wikipedia wird eine Sättigung eintreten und der Kurvenverlauf sich abflachen. Der Volksmund sagt: "Die Bäume wachsen nicht in den Himmel!"

Es ist jedoch weniger damit zu rechnen, dass es mit der Wikipedia "bergab" geht. Höchstens das Wachstum wird prozentual oder vielleicht auch mal absolut schwächer werden: es geht dann höchstens nicht mehr ganz so steil bergan und wegen der Menge irgendwann nur noch unmerklich.

Wenn wirklich Artikel absolut gesehen weniger werden sollten, dann trifft das wohl erst in einer ziemlich fernen Zukunft ein, in einer Qualitätsbildungs-, Konsolidierungs- und Bereinigungsphase. Wenn es dann zahlenmäßig berab geht, dann geht es aber qualitativ bergan. Um bei der Bergsteigersprache zu bleiben: der Gipfel ist dann evtl. nicht mehr höher, den wir erklimmen, aber der Schwierigkeitsgrad/Anspruch steigt.

Annahme: Die deutsche Wikipedia folgt der englischen Wikipedia

Die de-Wikipedia ist die zweitgrößte nach en (siehe [1]).

Wagen wir die Annahme, dass die Wachstumskurve von de mit dem Wachstum von en in irgendeiner Weise korrelliert. Im Juni 2004 erreichte die Deutsche eine Artikelzahl, die die Englische 17 Monate zuvor hatte. Dieser "zeitliche Abstand" verringerte sich seither auf 14 Monate im September 2004 und auf 12 Monate im Dezember 2004. Sollte der Abstand von 12 Monaten konstant bleiben, wird die Deutsche Wikipedia 300.000 Artikeln ca. im Juli 2005 erreichen. Der Abstand scheint sich in den letzten Monaten jedoch wieder zu vergrößern. Die englische Wikipedia scheint seit Anfang 2004 wieder exponentiell zu wachsen, während die deutsche Wikipedia seit April 2004 nur noch linear wächst.

Dass die deutsche Wikipedia momentan immerhin noch rund 1/3 so viele Artikel wie die englische hat und damit noch immer die zweitgrößte Sprachversion ist, ist zwar schön, aber die Tendenz ist eben schon seit Monaten fallend. Wenn es so weitergeht, hat de bald wieder nur noch 1/4 von en, dann 1/5...

Diese unterschiedlichen Wachstumsraten lassen sich verschiedenartig erklären:

  • Von allen Benutzern, die www.wikipedia.org beschuchen gehen gemäß alexa.com 63% auf en, 9% auf ja, 8% auf de, 4% auf es. Sprich, die de-Wikipedia ist noch nicht so in der Gesellschaft angekommen wie die en-Wikipedia. Jetzt, wo auch die deutschen Medien auf die Wikipedia aufmerksam werden kann sich das jedoch bessern. Vor kurzem lag der Prozentsatz noch bei 3%. Der Abstand ist aber immer noch immens.
  • Ganz eindeutig die unerträgliche Langsamkeit von Wikipedia, die auch das reine Lesen zur Qual macht. En wird in Frankreich gecached (Squid Proxy), de läuft in Florida. Dies sorgt für große Antwortzeiten. Besserung ist eventuell mit dem von Yahoo gespendetem Serververbund zu erwarten.
  • Wikipedia hat in Deutschland inzwischen eine gute Durchdringung. En hat den Weltmarkt, mit vielen Gebieten in denen Wikipedia bis jetzt kaum bekannt ist.
  • Die englische Sprache hat mit 340 Millionen etwa 3,4 mal so viele Muttersprachler wie die deutsche Sprache (100 Millionen). Englisch hat inklusive Zweitsprachlern sogar mehr als zehnmal so viele Sprecher.
  • Deutsche Wikipedia-Artikel werden laut Alexa nur rund ein Zehntel mal so oft gelesen wie die englischen.
  • Wikipedia (de) wird nicht die nötige (und auch zustehende) Geltung zugetan.
  • Die meisten Artikel die sind in der de-Wikipedia deutlich umfangreicher und besser geschrieben als in der en-Wikipedia.
  • De besitzt ein ganz anderes Qualitätsmaß als en. So werden oft Artikel einfach wegen fehlender Relevanz einfach wieder gelöscht. Hierbei ist die Relevanz sehr hoch angesetzt. Das bedeutet, dass viele Artikel, die in en sind, niemals in de sein werden. Auf en gilt im Wesentlichen: ein ein Artikel wird nur gelöscht, wenn er eine URV ist oder absoluten Schwachsinn enthält. Stubs werden nicht gelöscht, sondern mit einem "Stub"-Label versehen und bleiben, bis sie jemand erweitert. "Irrelevante" Lemmata werden nicht gelöscht, außer sie sind wirklich nachweislich total irrelevant. Auf de dagegen werden Stubs als Ärgernisse angesehen, die man besser löscht, damit jemand anders den Artikel ganz von neu schreiben kann. Und Artikel, die die strengen "Relevanzkriterien" nicht erfüllen, fliegen raus, auch wenn sie gut sind.

Annahme: Die deutsche Wikipedia hat innerhalb von 10 Jahren 25 Mio. Lemma

Die Wikipedia.de umfasst zur Zeit mit etwa 300.000 Einträgen nur einen winzigen Bruchteil der sinnvollen Lemma.

Allein das "Allgemeine Lexikon der Bildenden Künstler von der Antike bis zur Gegenwart", auch Thieme/Becker genannt, umfasst in seiner aktuellen CD-Version über 280.000 Künstler. Die ersten 148.180 Künstler- sowie 15.082 versteckten Biographien wurden in den Jahren 1907 bis 1950 im wesentlichen von ca. 400 Autoren geschaffen. Der Lexikograph Hans Vollmer fügte 1953 bis 1962 noch einmal 47.229 Künstlerbiographien hinzu.

Diese Viertelmillion Einträge umfasst also von den Künstlern nicht die Komponisten und auch keine Dichter, keine Sänger, Schauspieler und Regisseure. Es gibt auch noch Tänzer, Artisten, Gedächtniskünstler, Zauberer, Kaberettisten und viele weitere kleinere Künste von Puppenspielern bis Schattenspielern. Schon die Künstler bieten Stoff für über 3 Mio. Einträge (hauptsächlich Autoren).

Wenn alle Künstler erfasst wären, wäre noch kein Erfinder, Forscher, Naturwissenschaftler, Entdecker, Mathematiker, Philosoph, Geschichtswissenschafter, die hundert größten Entwickler der Funktechnik etc., etc. erfaßt.

Könige, regierende Fürsten, Politiker, Bürgermeister gibt es über die Jahrhunderte zu Hundertausenden.

Feldherren und Militärs, die eine Rolle in der Geschichte gespielt haben, gibt es auch über Hundertausend.

Bischöfe, Lamas, Prediger, Sektenführer, Päpste, Patriarchen und viele weitere Religionsführer haben auch Geschichte mitbestimmt, sicher finden sich in der Literatur über Hundertausend.

Abertausende haben sich um ihre Heimatgemeinden so verdient gemacht, dass Straßen nach ihnen benannt wurden oder sie zu Ehrenbürgern wurden. Allein die mehrhundertseitige über 150 Jahre alte (und damit urheberrechtsfreie) Chronologie meiner Heimatstadt mit mehrhundertjähriger Geschichte wäre Grundlage für über tausend sinnvolle Einträge. Ein pensionierter Lehrer mit Zeit, Liebe zur Geschichte, seiner Vaterstadt, der Chronologie kann nur einfach so in einem Jahr 1.000 Einträge zu unserer Stadt einstellen.

Auch warten noch einige hundertausende Städte, Dörfer, Berge, Flüsse, Bäche weltweit sowie über 2 Millionen Tier- und Pflanzenarten auf ihren Eintrag. Es sind aber auch einige zehntausend untergegangene Siedlungsplätze wiederentdeckt, ausgegraben, erforscht und bezeichnet worden.

Wenn nur eine Million der über 100-Millionen Menschen mit Muttersprache Deutsch sich an den PC setzt und anfängt, jeden Tag eines der oben beschriebenen Lemma einzugeben, dann (Server auf Google-Niveau vorausgesetzt) gäbe es nach einem Jahr 365 Millionen Einträge.

Für diese Zahl reichen schon die pensionierten Akademiker mit Internetanschluss und vollem Bücherregal, die es heute schon gibt.

Für 10.000 gute Bilder würden in meiner kleinen Stadt schon der Leicaclub reichen, überwiegend pensionierte Akademiker aus praktisch allen Fachrichtungen vom Arzt bis zum Chemiker.

Nur 10.000 Wiki-Freaks - Studenten, Pensionäre oder sonst Leute mit Zeit und Lust - die jeden Tag drei Einträge machen, haben in weniger als drei Jahren über 10.000.000 Einträge geschaffen.

Und allein das "Allgemeines Lexikon der Bildenden Künstler von der Antike bis zur Gegenwart" mit seinen über 250.000 bildendenden Künstlern, das weltweit größte Lexikon dieser Art, das über zwei Weltkriege nicht aufgegeben wurde, beweist, dass die Deutschen so etwas mögen und deshalb machen.

Internet und Wikipedia müssen nur in das Milieu der örtlichen Historischen Vereine, der Numismatiker, Naturfreunde, Vogelbeobachter, Technikvereine, etc. diffundieren. Ich sage in 5 Jahren mindesten 5 Mio. Einträge und in zehn Jahren mindestens 25 Mio. Einträge voraus. Das ist nur das etwa Hundertfache des Thieme/Becker.

Prozentuales Wachstum der deutschsprachigen Wikipedia für den Zeitraum April 2002 bis Mai 2004

Messgröße Aktueller Wert
(30.5.2004)
Monatliches
Wachstum
R T2 99%iges Konfidenzintervall
untere Grenze obere Grenze
Datenbankgröße 220.431.198 19,38% 0,99 117 18,50% 20,27%
Wörter 24.685.808 19,64% 0,99 115 18,67% 20,62%
interne Verweise 1.827.831 19,91% 0,99 114 18,57% 21,21%
Artikel 99.768 13,57% 0,99 153 13,57% 15,47%
Autoren 3.811 19,95% 0,99 114 18,70% 21,21%
Aktiver 1.641 20,24% 0,96 112 17,74% 22,79%
sehr Aktive 280 18,65% 0,91 121 15,16% 22,25%