Zum Inhalt springen

Wikipedia Diskussion:Kurier

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 27. Dezember 2016 um 05:57 Uhr durch Kmhkmh (Diskussion | Beiträge) (Das Ende des Long Tail). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 8 Jahren von Kmhkmh in Abschnitt Das Ende des Long Tail


Bitte achtet auf einen zivilisierten Umgangston!

Auch Diskussionsseiten sind nicht der Ort für öffentliche Beleidigungen – egal ob gegenüber Wikipedianern oder anderen Personen. Beiträge einzelner Diskussionsteilnehmer spiegeln grundsätzlich nur deren Meinung wider – unsachgemäße Äußerungen schaden jedoch auch dem Ruf der Wikipedia.

Siehe dazu auch: Wikiquette, Wikiliebe, Keine persönlichen Angriffe

Archiv
Archivübersicht (Präfixindex)
Wie wird ein Archiv angelegt?

Signpost-Artikel

Bericht über das Schiedsgericht der deutschsprachigen Wikipedia in der aktuellen Ausgabe des Signpost: https://en.wikipedia.org/wiki/Wikipedia:Wikipedia_Signpost/2016-12-22/Special_report --Andreas JN466 16:01, 23. Dez. 2016 (CET)Beantworten

In dem Signpost-Artikel ist dieser Satz interessant: "Remaining arbitrators Ali1610 and Freddy2001 did not respond to our emails." --Schlesinger schreib! 16:07, 23. Dez. 2016 (CET)Beantworten
Manchmal isses halt die klügste Option, wenn man die Klappe hält, statt Dummheiten von sich zu geben ;-) --Braveheart Welcome to Project Mayhem 16:16, 23. Dez. 2016 (CET)Beantworten
+1 erst denken, dann handeln. --Pro Gutes Bild (Diskussion) 20:03, 23. Dez. 2016 (CET)Beantworten
Angesichts der Sprachbarriere (der Verfasser des Artikels ist jedenfalls kein Muttersprachler und scheint sich teilweise auf Google Translate zu stützen) ein erstaunlich gelungener und ausgewogener Artikel, der die Lage verständlich darstellt. Gestumblindi 21:54, 23. Dez. 2016 (CET)Beantworten

Das Ende des Long Tail

Interessante Daten, die naturgemäß in der Deutung nicht gerade allgemeinverständlich sind. Ich würde zusätzlich eine Prüfung auf Korrelation von Seitenlänge (genauer: Quelltextlänge) und Abrufzahlen vorschlagen. @Menner: kannst Du irgendwo aufschreiben, wie genau Du die Daten erhoben hast? —MisterSynergy (Diskussion) 12:20, 24. Dez. 2016 (CET)Beantworten

Quetsch: Details zur Datenerhebung kommen erst Februar/März. Mit allen Datensackgassen ware es schon fünf Samstag Vormittage bis zum Ergebnis. Im Moment wollte ich erstmal die Arbeit vor den Feiertagen los werden. -- Menner (Diskussion) 13:59, 24. Dez. 2016 (CET)Beantworten
Also ich versteh die Logik dahinter. Ein Winston Churchill hat auch bei uns noch immer eine höhere Aufmerksamkeit als die meisten aktiven englischen Politiker (Von den Hinterbänklern vor 80 Jahren sprechen wir besser nicht). Oder weis jemand gerade wer die Nummer 2 in Grossbritannien ist, also wer die/der Lordkanzler vom Kabinett May ist? Ich denke die meisten müssen dem Link folgen, selbst die die es zu Wissen meinen. Es wird auch einer der ersten Artikel über englische Politiker gewesen sein, und mit 7. Feb. 2003‎ ist es auch ein uralter Artikel (ich geh jetzt nicht suchen wer davor angelegt worden ist). Er ist auch in über 500 Artikel verlinkt, entsprechend wird auch der Punkt eine hohe Aufrufzahlen generieren.
Ist ein Artikel dagegen irgendwo wo in einer Nische, wo nur eine Handvoll Artikel darauf verweisen, wird die Abrufzahl klein sein. Das ist nun mal so. Nicht jeder Artikel hat in der Gesamtbewertung, die gleiche Wichtigkeit. Selbst wenn es für das Fachthema einer der wichtigsten Artikel ist. Aber wer sich nicht für Philatelie dem wird der Artikel Briefmarkentrennung so was von am Arsch vorbeigehen. Wo hingen irgend ein C-Promi weil er gerade mal wieder im Jungelcamp sitzt (oder sonst wie durch die Boulvardpresse geschleift wird), aktuell hohe Aufrufzahlen haben kann. Deswegen brauchen wir den Artikel Briefmarkentrennung, trotzdem auf einem qualitativ guten Niveau.
Da sehe ich die Kritik am Kurierbeitrag. Man sollte Artikel nicht gegeneinander ausspielen, denn Abrufzahlen alleine sagen nicht über die Wichtigkeit aus. Aber grundsätzlich hat man schon recht, dass die Qualitätssicherung immer wichtiger wird. Das wir zukünftig nicht unbedingt mehr Neuautoren für neue Artikel brauchen, sondern vor allem solche Autoren die fähig sind in einem Gebiet die bestehenden Artikel qualitativ zu verbessern. Also sie zu aktualisieren und zu warten, und logischerweise eigentlich auch auf den Stand zu bringen, dass man sie als lesenswert vorschlagen könnte. Also das Abkehren von Masse zu Klasse.--Bobo11 (Diskussion) 12:53, 24. Dez. 2016 (CET)Beantworten

Naturgemäß ist es so, dass Artikel mit hohen Aufrufzahlen auch häufig von den Lesern bearbeitet und verbessert werden. Um diese muss sich ein alteingesessener Wikipedia-Autor kaum kümmern, die Arbeit nimmt ihm schon jemand anders ab. Wichtig sind doch die Artikel, für die kaum allgemeines Interesse besteht, die aber für eine bestimmte Fachrichtung von hoher Bedeutung sind. Hier müsste man viel intensiver gegenlesen und nachprüfen!--Sinuhe20 (Diskussion) 13:37, 24. Dez. 2016 (CET)Beantworten

Herzlichen Dank für den Beitrag! Er bestätigt eine Beobachtung, die ich "Kollaborationsverweigerung" oder "Kollaborationsunlust" nenne. Die meisten Menschen, und wohl auch die meisten Wikipedianer, haben gar nicht so viel Lust auf wirklich gemeinschaftliches Arbeiten an Texten. Das sieht man bereits in Anfängerkursen, wo die Anfänger am liebsten einen "eigenen" (neuen) Artikel schreiben, anstatt bestehende zu verbessern. Bei den "alten Hasen" zeigt es sich eben darin, sich extensiv mit einem weniger umkämpften Themengebiet zu beschäftigen oder sich auf "Orchideenartikel" zu konzentrieren.
Ist das gut oder schlecht? Es reimt sich zumindest nicht mit dem Anspruch, durch das Mitmachprinzip ein gutes Produkt abzuliefern bzw. Partizipation zu realisieren. Ein wichtiger Gedanke anlässlich der nach wie vor beeindruckenden Zahl von zwei Millionen. Ziko (Diskussion) 13:47, 24. Dez. 2016 (CET)Beantworten
Ich stimme eher Ziko zu als Sinuhe20. Dass die häufig aufgerufenen Artikel keine Betreuung durch einzelne Wikipedianer bedürfen, weil sie sich durch die vielen Leser quasi von selbst verbessern, glaube ich nicht und sehe ich auch nicht in den Artikeln auf meiner Beobachtungsliste. Eher ist es so, dass diese Artikel substantiell zu verbessern viel anstregender ist, gerade weil bei zentralen Artikel mehr Leute mitreden wollen. Bei einem Randartikel kann ich viel bequemer mit ein bisschen Literaturrecherche meine Vorstellung von einem guten enzyklopädischen Artikel umsetzen als bei einem zentralen Artikel. --Magiers (Diskussion) 14:53, 24. Dez. 2016 (CET)Beantworten
Das widerspricht sich nicht. Ein Artikel kann von diversen Autoren geschrieben werden, ohne daß sie zusammen arbeiteten. Sondern meist nacheinander. Zusammenarbeiten sind die Ausnahmen, nacheinander bearbeiten passiert oft. Auch ausserhalb der Wikipedia werden Texte in den meisten Fällen von Einzelautoren geschrieben. Daß der Schwarm nicht stimmt wissen wir ja. Aber einmal mehr interessant, wie man recht unverblümt erfährt, daß das was man hier macht eigentlich nix taugt, wenn es nicht wenigstens ein paar tausend Leser im Monat hat. Wird bei mir nicht passieren und deswegen wechsele ich sicher nicht zu den aktuellen Katastrophenartikeln. Manche Autoren dachten glatt, wir halten hier Wissen für alle Eventualitäten vor. Aber ne - es geht nur darum, möglichst viele Leser zu erreichen. Habe ich Dummerchen mal wieder was gelernt. Marcus Cyron Reden 19:21, 24. Dez. 2016 (CET) PS: genau das möchte man an Weihnachten lesen. Nicht etwa ein Dankeschön, daß man sich das ganze Jahr über den Arsch aufgerissen hat, ne, daß man eigentlich überflüssig ist...Beantworten
Ach Marcus, du musst doch nicht jede Äußerung zu irgendeinem Thema als persönliche Beleidigung gegen dich auffassen. Ich fand die Darstellung der Daten interessant. Und ja, auch die paar Artikelchen, die ich verbreche, liegen beim Leserinteresse jenseits von zahlenmäßig überhaupt ausdrückbaren Bruchteilen. Lieben Gruß, --Drahreg01 (Diskussion) 19:41, 24. Dez. 2016 (CET)Beantworten
Die Bruchteile täuschen. Dass 600.000 Artikel (die muss man erst einmal haben) 96 % der Abrufzahlen erzielen, muss nicht überraschen. (Wir haben viel Spezielles, das nur selten nachgefragt wird. Wenn es das dann aber wird, sollte das Ergebnis gut sein.) Bei 2 Millionen Artikeln bleiben so 1,4 Mio (auch die muss man erst einmal haben) Artikel, die 4 % der Abrufzahlen erzielen. Bei der Häufigkeit, mit der die Wikipedia abgerufen wird, ist das immer noch eine beachtliche Zahl, von der manche Regionalzeitung träumen kann. -- 32X 10:22, 26. Dez. 2016 (CET)Beantworten
@Ziko: Jeder Wikipedianer ist glaube ich an gemeinschaftlicher Arbeit interessiert, nur heißt das ja nicht, dass alle an denselben Texten arbeiten müssen. Man versucht halt so gut es geht bestehende Lücken zu füllen, was durchaus sinnvoll ist. Genauso sinnvoll ist es, dass zentrale Artikel, für die deutlich mehr Informationsquellen zur Verfügung stehen, in Kollaboration erarbeitet werden, da eine einzige Person gar nicht alles im Überblick behalten kann. Jeder versucht halt auf seine Weise seinen bestmöglichsten Beitrag zu leisten. Der eine entfernt ein paar 100 grobe Fehler aus weniger besuchten Artikeln, ein anderer schreibt neue Artikel über seltene Hörnchenarten, ein dritter trimmt lieber ein paar zentrale Artikel auf "exzellent". Letztendlich zählt doch, dass immer irgendwo etwas verbessert wird und dass niemand seinen Spaß an der Sache verliert.--Sinuhe20 (Diskussion) 23:19, 24. Dez. 2016 (CET)Beantworten
+1 Ebenso wird der sogenannte "Schwarm" wieder mal falsch vertanden. Der Schwarm stannd noch nie dafür, dass die Massen unbedingt an einem Artikel mitarbeiten oder kollaborieren, sondern dass sie beim Aufbau einer Enzxklopädie mitarbeiten bzw. kollaborieren.--Kmhkmh (Diskussion) 03:04, 25. Dez. 2016 (CET)Beantworten
(Quetsch) Das ist schön gesagt, Sinuhe20, ich schließe mich dem gern an. Es ist nur so: Wir beobachten die Anfänger und selber sind war gar nicht so anders. Ich habe auch so meine Spezialfelder... Ziko (Diskussion) 20:25, 25. Dez. 2016 (CET)Beantworten

Drei Anmerkungen eines Autors von Randthemen:

  1. Die englische Wikipedia neigt zum Splitten der Artikel, während bei uns Themen kompakt in größeren Artikeln abgehandelt werden (Meine persönliche Beobachtung. Was bei uns in Osttimor steht, verteilt sich in der enWP auf en:East Timor, en:Geography of East Timor, en:Politics of East Timor, etc.)
  2. Allein wegen der größeren Zahl von Muttersprachlern und englischsprachigen Ländern gibt es zum Beispiel in Geschichte, Geographie und Politik mehr Bereiche, die eine breitere Masse interessieren können.
  3. Macht Euch keine Sorgen um Randthemen. Selbst ein Hinterbänkler kann eines Tages plötzlich Minister werden und dann ist man froh, dass man schon vorher Informationen gesammelt hat, die in der Flut der aktuellen Meldungen sich nach der Ernennung nicht mehr so schnell wiederfinden lassen. --JPF just another user 23:28, 24. Dez. 2016 (CET)Beantworten
Von jemandem mit knapp über 400 Edits, von denen nicht einmal die Hälfte im ANR liegt, lasse ich mich jedenfalls nicht motivieren, anders an die Artikelarbeit heranzugehen, ob es nun um Randthemen geht oder nicht. Und daß die Foundation da irgendetwas bewirken kann, gkaube ich schon gar nicht. Die Notwendigkeit der Bestandspflege dürfte ja jedem deutlich sein, der es geschafft hat, etwas länger hier tätig zu sein, wobei zweifellos die Arbeit in den eigenen Kerngebieten dadurch beeinträchtigt wird und die Lust an der Sache bisweilen leiden kann. Die Neigung zum Splitten bei der englischsprachigen Wikipedia kann ich vielfach nicht feststellen, bei meinen Themen wird oft zusammengeworfen, was eigentlich getrennt gehört, womit dann auch Probleme mit Wikidata entstehen, dem Lusttöter im Geschichtsbereich. Allerdings will ich den Weihnachtsfrieden nicht zu sehr stören und die unterschiedliche Qualität in den verschiedenen Sprachversionen daher nicht ansprechen. --Enzian44 (Diskussion) 02:45, 25. Dez. 2016 (CET)Beantworten
en.wp hat oder hatte deutlich restriktivere RL zur Artikellänge mit teilweise expliziten Vorgaben wie z.B. dass ab 32K Text ohne Fußnoten Artikel in separate Artikel aufgeteilt werden sollten. Insofern spiegelt sich oben oben gemachte Äußerung durchaus in den RL wieder. Ob das nun bei jedem Artikel bzw. in jedem bereich umgesetzt worden ist, ist eine andere Frage.--Kmhkmh (Diskussion) 03:10, 25. Dez. 2016 (CET)Beantworten
Bereits beim Einmillionsten Artikel hieß es, dass die Betsandspflege wichtiger wird. In vielen Bereichen sehe ich diese Thematik jedoch derart stiefmütterlich behandelt, dass man über jeden 400-Edit-Beiträger froh sein kann, der sich im Sinne des (nie erreichbaren) Projektziels engagiert. -- 32X 10:22, 26. Dez. 2016 (CET)Beantworten

Da die Grundthese ja ist, dass es besser wäre mehr Zeit in die Top-50% zu investieren der Seitenzugriffe zu investieren, wäre es gut zu wissen, wieviel Zeit tatsächlich in diese Artikel fließt. Und darüber sagen die Artikel-Neuanlagen leider kaum was aus aus. Da müsste man schon eher die kumulierten Edits dieser Artikel zählen und zu den Gesamt-Edits in Relation setzen. // Martin K. (Diskussion) 22:18, 26. Dez. 2016 (CET)Beantworten

Diese "Grundthese" ist unabhängig von der aktuellen statistischen Auswertung doch ein "Uralt-Kalauer", der vor allem wie auch bisher dazu tendiert wieder mal streng an Projektwirklichkeit vorbei zu disktutieren. Da Wikipedia weitgehend in einem auf Freiwilligenarbeit basierenden "bottom up"-ansatz erstellt wird, sind entsprechende redaktionelle "top down"-Ansätze, die vorgeben welche Themen/Artikel man primär zu bearbeiten von vorneherein zum Scheitern verurteilt.--Kmhkmh (Diskussion) 04:57, 27. Dez. 2016 (CET)Beantworten

Selffullfilling statistics?

Steckt hier außer x = yMax - y noch irgendeine empirische Erkenntnis drin?

@Menner: Du arbeitest ja mit zwei Eigenschaften, den Seitenabrufen (die messbar sind) und einem sog. Seitenrang (den Du aus den monatlichen Seitenabrufen ermitteltst) und setzt diese zu einander ins Verhältnis, dass Du dann als logarithmisch verzerrten Graphen darstellst. Wenn ich das richtig sehe, sind diese beiden Eigenschaften ja nicht unabhängig von einander, sondern errechnen sich direkt auseinander. Und das hat doch eigentlich zwangsläufig zur Folge, dass der Graph nur so aussehen kann wie er aussieht, weil er letztlich nur die von Dir selbst festgelegte Formel zu Errechnung des Seitenrangs aus den Seitenaufrufen visualisiert?!

Oder um mal konkret zu werden: Da wo die Kurve die X-Linien trifft (also etwa bei 1e+6,3), das ist doch einfach nur der nach Deiner Formel niedrigst mögliche Seitenrang, oder? Da da nach nichts mehr kommt muss das ja der Rang der Artikel mit nur 0-1 Abrufen im Monat sein. Und das wiederrum bedeutetet doch, dass es den von Dir erwarten "Long Tail" aus mathematischen Gründen gar nicht geben kann, weil es ja keine negativen Abrufzahlen gibt?!

Bitte korrigiere mich, falls ich da irgendwo einen Denkfehler drin hab, aber aktuell erscheint es mir so, als sie die erste Statistik schlicht eine 0-Aussage. // Martin K. (Diskussion) 10:47, 26. Dez. 2016 (CET)Beantworten

Entschuldigt, wenn ich dumm frage. Null kann man ja auf einer logarithmischen Skala nicht sinnvoll darstellen. Wenn wir jetzt aber alle Seiten mit 0 Aufrufen als 0,1 Aufrufe werten würden und auf der Y-Achse bis 0,1 (statt bis 1) darstellen würden, wäre die rote Kurve doch S-förmig, oder? --Drahreg01 (Diskussion) 11:15, 26. Dez. 2016 (CET)Beantworten
Die Seitenabrufe stammen aus der Wikimedia-API und der Seitenrang erfolgt durch sortieren nach Seitenabrufen von allen Artikeln. Da ist im eigentlichen Sinne nichts errechnet. Im Text habe ich beschrieben, dass der Long Tail schon bei Top50% (4977 Seitenabrufe) abbricht. Der Rest sind nur dessen "Franzen". Du gehst zuweit und beziehst dich auf die 0 Seitenabrufe im Monat. Die grüne Linie ist eine erwartbarer Zusammenhang und die Abweichung davon hinter Top50% die "gesuchte" Anomalie bei Wikipedia.
-- Menner (Diskussion) 11:22, 26. Dez. 2016 (CET)Beantworten
PS: Die Rote Linie ist die abzählbare Realität. Hier tritt zwangsläufig eine Abweichung zur Mathematik/Logarithmus auf. -- Menner (Diskussion) 11:24, 26. Dez. 2016 (CET)Beantworten
@Menner: Ok, das ist also einfach nur eine sortierte Ausgabe der Zugrifszahlen aller Seiten?! Ich hatte vermutet, dass sich dieser Rang (vgl. dem PageRank) irgendwie errechnen würde..
Aber auch unter diesen Voraussetzungen bleibt es dennoch dabei, dass Werte jenseits des Nulldurchgangs der roten Linie (bei 2.xMio) überhaupt nicht definiert sein können, weil es da schlicht keine Artikel mehr gibt? Und damit ist es auch nicht sinnvoll diese vermeintliche Ideallinie in diesen Bereich zu extrapolieren. Eigentlich müsste doch auch diese Ideallinie beim letzten exisiterenden Artikel nahe 0 angekommen sein? Und wenn man das im Graphen entsprechend umsetzt und die grüne Linie vom y-Achsen-Durchgang zum x-Achsen-Durchgang durchzieht, verkehrt sich die Analyse in das genaue Gegenteil: Die realen Zugriffszahlen liegen dann durchgängig über der Erwartunglinie. Der Long Tail ist also nicht abgeschnitten, sondern sehr viel dicker als man das erwarten könnte. D.h. auch die eher seltenen gelesen Artikel werden in der WP im Vergleich häufiger angeklickt als die wenig fequentierten Seiten/Artikel anderer Seiten, die eher diesem Gesetz folgen. Sie sind also keineswegs irrelevant. // Martin K. (Diskussion) 14:53, 26. Dez. 2016 (CET)Beantworten
Das Diagramm musst du von links nach rechts lesen. Ein Gedankenspiel: Tausend Leser interessieren sich alle für die Top10 Artikel, womit jeder Artikel tausend Seitenabrufe hat. Die Leser teilen sich jetzt in zehn gleichgroße Untergruppen und jede Untergruppe hat nochmal ihre eigenen Spezialinteressen, für die es jeweils 10 Artikel. Das ergibt dann in Summe weitere hundert Artikel, aber mit jeweils nur hundert Seitenabrufen, da jede Untergruppe nur hundert Leser bildet. Jede Untergruppe kann jetzt wieder 10 UnterUntergruppen bilden und die Artikelzahl steigt stark an und die Leser/Seitenabrufe fallen stark ab. Daher kommt das doppeltlogarithmische Diagramm. Nun ist aber jeder Mensch in seinem Vermögen begrenzt und irgendwann hört er auf sich zu spezialisieren. Ab dort tritt eine Abweichung von der grünen Linie auf. Die grüne Linie stellt somit die theoretische Spezialisierungsgrenze dar, wie es anfangs den Eindruck macht.
Die Linie geht auch nicht durch Null, es ist keine mathematische Funktion. Die Leser hören einfach auf die Artikel zu lesen.
Durch die Abweichung zur grünen Linie lernt man als Autor: Wer sein Wissensgebiet einem breiten Publikum schmackhaft machen will, der sollte sich nicht zu sehr spezialisieren, sondern mehr auf Qualität achten. Die Autoren die sich um einen beliebten Artikel bemühen werden, werden mit einem vielfaches an Lesern belohnt. Hier spaltet sich die Community in die Gruppe derer, die sich nur intensiv mit ihrem Lieblingsthema befassen möchten und derer die interessierten Menschen ihr Fachgebiet zugänglich machen wollen. Für letzteres möchte ich neben der Präsentation der Zahlen ansich werben. -- Menner (Diskussion) 16:24, 26. Dez. 2016 (CET)Beantworten
@Menner: Mal rein mathematisch und unabhängig von dem, was man da reininterpetiert:
  • Versteh ich Dich richtig, dass Du mit der grünen Linie, die Höhe der Zugriffszahlen angibt, die Du gemäß des Zipfschen Gesetzes erwarten würdest?
Falls ja:
  • Wie kann es sein, dass diese Linie für ein Projekt, das nur 2,x Mio Artikel umfasst, für den nicht existierend 2,x Mio + 100.sten Artikel immer noch über 1000 Zugriffe voraussagt?
  • Wie genau ermittelst Du Ausgangshöhe und die Steigung bzw. das Gefälle dieser log. Geraden? Basiert das auf irgendeiner Formel, oder ist das einfach nur die Extrapolation, der gemittelten anfänglichen Steigung des empirisch ermittelten Graphen?
    • Falls ersteres: Wie genau lautet diese Formel?
    • Falls letzteres: Warum wählst Du genau diese Anfangssteigung (der ja dank der Log. Darstellung verhältnismäßig wenig Artikel zu Grunde liegen) und nicht eine aus dem Mittelteil der Kurve? Oder von Ihrem Ende?
P.S.: Woher stammt eigentlich dieses Datenmaterial? Gibt es da einen Schnittstelle über die man die aktuellen Zugriffszahlen aller Artikel gezielt auslesen kann?
P.P.S.: Ich glaube schon, dass es bei gut 2 Mio. durchaus auch welche gibt, die im Testmonat nur 1 oder keinmal angesehen werden. Und auch diese sollten ja hier Berücksichtigung finden. // Martin K. (Diskussion) 18:02, 26. Dez. 2016 (CET)Beantworten
@Martin Kraft: Die grüne Linie habe ich nach zweitens ermittelt. Den linken Teil der Kurve habe ich zur Extrapolation genommen, da erwartbar ist, das dort mein Gedankenspiel noch am stärksten Gültigkeit hat und beeindruckend genau über vier Größenordnungen so verläuft. Die Gerade in der doppeltlogarithmischen Darstellung kann keine Zufall sein. Beim logarithmischen Verläufen spielt die Größe einer Zahl keine so große Rolle. Wichtig sind die Größenordnungen. von Top1 bis Top10k sind es vier Größenordnungen und von Top10k bis Top1000k nur zwei Größenordnungen.
Das Datenmaterial stammt von wikimedia.org und wurde mit einem Python-Skript einzeln abgerufen für 1.904.449 Artikel. Etwa ein dutzend Werte fehlen wegen HTTP-Error.
Etwa 37k Artikel gibt es laut meinen Logs mit 0 Aufrufen und etwa 37k Artikel mit 1 Aufruf. Da eine interessante Erkenntnis finden halte ich für unwahrscheinlich, wenn es Artikel gibt die über hunderttausend Besucher aufweisen.
-- Menner (Diskussion) 18:58, 26. Dez. 2016 (CET)Beantworten
Bei Ausgleichungsrechnungen versucht ja üblicherweise die Parameter einer Funktion über die Werte des gesamten Datensatzes zu mitteln und nicht nur über dessen Extrema?! Gerade bei Hyperbeln (und über eine solche sprechen wir ja hier) kann es ziemlich irreführend sein, wenn man allein aus dem starkstürzenden Anfangsteil bezieht und den Long Tail vernachlässigt. Diese vier Größenordnungen sind ja nur 1000 von über 2 Mio. Artikel. Und aus diesen gerade mal 0,5% der gesamten Testmenge die Parameter für den Gesamtverlauf zu ermitteln und dabei 99,5% der Artikel zu vernachlässigen finde ich schon sehr gewagt. Allein die Tatsache, dass die hypothetische Testkurve am Ende der Artikelanzahl weit über 3 Zehnerpotenzen über den real ermittelten Werten liegt und sich entsprechend im nicht mehr existierenden Bereich fortsetzt, zeigt doch, dass sie so überhaupt nicht zutreffen kann.
Im übrigen ließe sich die Biegung dieser Kurve über die Änderung der Basis des Logarithmus der Skala nahezu beliebig verschieben.
Könntest Du mir den Datensatz mal irgendwie (z.B. als CSV, JSON, o.ä.) zukommen lassen? Würde gerne selbst mal etwas damit rumspielen. // Martin K. (Diskussion) 19:42, 26. Dez. 2016 (CET)Beantworten
Du hast Mail. Allgemein samt Skripten lade ich erst später hoch.
Die Biegung mag anderst skalieren, die Gerade bleibt gerade. Und es sind mit akzeptabler Näherung vier Zehnerpotzenzen sowie fast 50% unserer Leser ;)
-- Menner (Diskussion) 20:50, 26. Dez. 2016 (CET)Beantworten
Danke sehr. Ich werde mir das mal vornehmen. // Martin K. (Diskussion) 22:07, 26. Dez. 2016 (CET)Beantworten
Diese Form von Diagramm "Abrufzahlen vs. Seitenrang" ist konstruktionsbedingt ein monoton fallender Trend, mehr ist allerdings erstmal nicht festgelegt. Dass dann über drei bis vier Größenordnungen ein linearer Bereich in doppeltlogarithmischer Auftragung vorzufinden ist, das ist nicht zwingend, aber durchaus interessant. Mit dem grünen Fit messen wir dann allerdings die Aufrufzahlen aller Artikel an dem Trend der obersten 10.000. Ob das sinnvoll ist, ist eine andere Frage. Der Schnittpunkt mit der x-Achse ist im Übrigen die Artikelzahl, die beim Ermitteln der Daten noch unter 2M lag. --MisterSynergy (Diskussion) 11:55, 26. Dez. 2016 (CET)Beantworten
Die Analyse mag für die obersten 100.000 Artikel sinnvoll sein, dahinter verliert sie aber die Aussagekraft, da dann das Rauschen durch Bots und Suchmaschinencrawler in die Größenordnung der menschlichen Aufrufe kommt. 80.143.218.160 16:34, 26. Dez. 2016 (CET)Beantworten
Die normalen Bots und Crawler werden gefiltert. Den Rest halte ich für marginales Rauschen, denn es gibt einige hundertausend Artikel die keine Besucher hatten. -- Menner (Diskussion) 17:13, 26. Dez. 2016 (CET)Beantworten
Ich verstehe schlicht nicht, welche Aussagekraft diese grafische Darstellung haben soll. Wie kann aus einer Beziehung zwischen Abrufzahl und Seitenrang auf die "Spezialisierungsneigung" der Leser (!!) geschlossen werden? Es wurden doch überhaupt keine Daten erhoben, die irgendetwas mit "Spezialisierung" zu tun hätten (ganz abgesehen davon, dass sich der Autor auch nicht die Mühe gemacht hat, eine wenigstens grobe heuristische Bestimmung zu geben, was er damit meint). Die weitere Schlussfolgerung lautet: "Die Wikipedia ist aus Lesersicht fertig und muss nur weiter aktualisiert sowie besser aufbereitet werden." Entrschuldige, aber hier sehe ich überhaupt nichts, was einen so weitreichenden Schluss nahelegen könnte. Das halte ich schlicht für Dummenfängerei. Mit diesen Daten (eine "Untersuchung" sehe ich gar nicht) ist es ausgeschlossen, irgendeine Aussage darüber zu treffen, was "die Wikipedia aus Lesersicht ist". --Mautpreller (Diskussion) 17:23, 26. Dez. 2016 (CET)Beantworten
+1; Dazu müsste man die Aufrufzahlen für Rotlink-Lemmata ebenfalls berücksichtigen.--Mabschaaf 17:52, 26. Dez. 2016 (CET)Beantworten
Wie ich mich zu dieser Aussage anmaße kann man sich aus dem Gedankenspiel weiter oben erschließen. Aber Erkenntnis erwarte ich nicht von jemandem der anderen "Dummenfängerei" vorwirft. Somit EOD.
Eine Berücksichtigung von potentiellen Klicks auf Rotlinks halte ich für unwichtig. Die Kurve würde vielleicht zwei Pixel weiter rechts verlaufen.
-- Menner (Diskussion) 19:09, 26. Dez. 2016 (CET)Beantworten
Nein, kann man nicht. Dort ist nichts beschrieben, was irgendetwas mit "Spezialisierung" zu tun hätte oder auch nur so beschrieben werden könnte. Die Aussage mit der "Dummenfängerei" erhalte ich aufrecht, solange weitreichende Aussagen aus Daten geschlossen werden, die dazu prinzipiell gar nichts hergeben können.--Mautpreller (Diskussion) 19:20, 26. Dez. 2016 (CET)Beantworten

Die Gerade ergibt sich doch nur für das vereinfachte Zipfsche Gesetz mit α = 1. Es kann aber auch ein ganz anderer Exponent gewählt werden, so dass die Kurven übereinstimmen.--Sinuhe20 (Diskussion) 20:12, 26. Dez. 2016 (CET)Beantworten

Äh!? Google sagt: "Keine Ergebnisse für "vereinfachtes Zipfsches Gesetz" gefunden". Hast du einen Lesetip? -- Menner (Diskussion) 20:57, 26. Dez. 2016 (CET)Beantworten
Den Wikipedia-Artikel Zipfsches Gesetz? ;-) --Sinuhe20 (Diskussion) 21:02, 26. Dez. 2016 (CET)Beantworten
I see. Im Artikel steht a statt α. Die Abweichung von 1 betrifft nur die Steilheit der Gerade. Der genaue Wert von a hat mich jetzt nicht interessiert. Würden mehrere Sprachversionen verglichen, wär das anderst. -- Menner (Diskussion) 21:40, 26. Dez. 2016 (CET)Beantworten
Die logarithmische Achseneinteilung verwirrt etwas, oder wie würde sich der Faktor b bei der Funktion f(x)=b/x hier auswirken? Ich würde mir gern mal die Abhängigkeit zwischen Seitenrang und Seitenabrufen auf einer normalen Achseneinteilung ansehen. Oder man schaue sich mal das Beispiel bei Logarithmische Darstellung an. Anscheinend besteht zwischen Anzahl der Wikipedianer und Bearbeitungen eine Zipfsche- oder Paretoverteilung. Bei der doppelt logarithmischen Darstellung ist aber keine Gerade zu sehen.--Sinuhe20 (Diskussion) 22:21, 26. Dez. 2016 (CET)Beantworten
Du hast Mail. Alles werde ich geputzt im Februar/März mal hochladen, außer es fragen noch mehr. --Menner (Diskussion) 22:15, 26. Dez. 2016 (CET)Beantworten
f(x)=b/x doppelt logarithmisch aufgetragen wäre log f(x)= log b - logx, b sorgt also lediglich für eine Verschiebung der Kurve nach oben oder unten. Aber bezüglich Spezialisierung: Inwiefern kann man an der Kurve Spezialisierung ablesen? Wenn auf Rang 100 der Artikel "Zipfsches Gesetz" und auf Rang 1000000 der Artikel "Amerika" ist (ist nicht so, aber hypothetisch), dann würde gerade ein sehr spezieller Artikel extrem oft und ein allgemeiner Artikel sehr selten aufgerufen. Inwiefern macht deine Kurve eine Aussage über die Spezialisierung der gelesenen Artikel, die zu der Aussage berechtigt Anhand der hier gemachten Untersuchung zur Wikipedia haben deren Leser eine begrenzte Spezialisierungsneigung.? 80.143.218.160 22:17, 26. Dez. 2016 (CET)Beantworten
In der Tat, man müsste in dieser Darstellung eigentlich immer eine Gerade sehen, aber was heißt das nun? Wurden weniger relevante Artikel zu selten oder höher Platzierte zu häufig aufgerufen? Oder besteht hier nur eine andere Beziehung, die sich nicht durch eine Potenzfunktion ausdrücken lässt?--Sinuhe20 (Diskussion) 23:13, 26. Dez. 2016 (CET)Beantworten

Lautet die Aussage, dass häufig aufgerufene Artikel häufig aufgerufen werden? Einigermaßen sicher können wir aber doch sein, dass viele auch heute noch häufig aufgerufene Artikel früh geschrieben wurden. --Drahreg01 (Diskussion) 22:49, 26. Dez. 2016 (CET)Beantworten

"Spezialisierung" soll hier m.E. nicht das bedeuten, was man normalerweise damit meint (Bsp. Biologie, Tagesdurchschnitt 306; Braunbär, Tagesdurchschnitt 650). Ein "spezialisierter" Artikel kann in diesem Kontext nur bedeuten: ein relativ selten aufgerufener Artikel mit einem niedrigen PageRank, ganz egal, ob er allgemein oder speziell ist. Man kann daraus also auch keine Schlüsse bezüglich "Spezialisierung" ziehen. Der Schluss, den der Autor nahelegt, ist vielmehr: Man soll Artikel bearbeiten, die viel gelesen werden, die werden mehr wahrgenommen (Überraschung). Artikel, die wenig gelesen werden, werden weniger wahrgenommen (Überraschung). In Verbindung mit dem The Long Tail-Theorem könnte noch was anderes gemeint sein: Dieses Theorem stimmt für die Wikipedia nicht, weil es zwar einen Long Tail gibt, der aber für die Nachfrage nach der Wikipedia kaum eine Rolle spielt. Das lässt sich aber so nicht belegen, da diese Nachfrage und ihre Gründe so gar nicht zugänglich sind. Was hier vorliegt, ist letztlich ein Versuch, aus dem PageRank die Aufrufzahlen vorherzusagen (wie bei der Zipf-Verteilung). Es wird erkennbar, dass eine bestimmte Zipf-Verteilung ganz gut für die häufiger abgerufenen Artikel funktioniert, nicht mehr aber für die seltener abgerufenen Artikel. Welche Schlüsse lässt das zu? Auf keinen Fall den Schluss, dass die Wikipedia "aus Lesersicht fertig ist" und dass eine geringe "Spezialisierungsneigung" der Leser (oder eine "zu große" der Autoren) vorliegt (das ist m.E. schlicht Schwindel).--Mautpreller (Diskussion) 00:25, 27. Dez. 2016 (CET) <bk> Der Punkt ist doch der, daß unser Artikelbestand gar nicht statisch ist; was dieses Jahr interessant war, interessiert nächstes Jahr nicht mehr. Der Artikel Poughkeepsie existiert seit etlichen Jahren, während Oueslatia in dieser Woche von J. Patrick Fischer angelegt wurde. Abrufzahlen sind eventabhängig. Die Abrufzahlen von Poughkeepsie waren am 11. Dezember in etwa gleich mit denen von Oueslatia am Tage seiner Anlage. Der Auslöser des Poughkeepsie-Peaks war die Ausstrahlung des Fernsehfilmes Katie Fforde: Tanz auf dem Broadway, Oueslatioa geriet als Geburtsort des Berlin-Attentäters in den Fokus. --Matthiasb – (CallMyCenter) 00:54, 27. Dez. 2016 (CET)Beantworten

Wenig abgerufene Artikel sind keinesfalls unwichtig. Ein großer Teil der Attraktivität von Wikipedia liegt darin, dass man auch zu sehr ausgefallenen Themen Informationen bekommen kann. Man denke sich ein Telefonbuch, bei dem nur die Telefonnummern zu finden sind, die ein gewisses Maß an Nachfragen haben. Es könnte demnach sein, dass die Nummer einer Oma, die ausschließlich mit ihrer Verwandtschaft telefoniert, das aber häufig und lange, in Jahren nicht nachgefragt wird, weil alle aus der Verwandtschaft die Nummer bereits kennen. Jemand anderes könnte dann also nicht mehr die Nummer finden und bei der Frau anrufen, weil die Nummer nicht mehr im Verzeichnis vorkommt. Dumm nur, wenn die Apotheke anrufen will, weil ein Medikament verwechselt wurde. Also die Artikel zu irgeneiner ausgefallenen Substanz oder zu einer seltenen Flechte können unter Umständen binnen Minuten zu einem absoluten Burner werden und enorm wichtig sein, wenn sagen wir mal die Flechte irgenwie zu einem medizinischen Durchbruch beiträgt oder ein in den Rhein gestürzter Lastwagen mit der Substanz die Frage aufwirft, ob das Trinkwasser potenziell gefährdet ist oder nicht.--Giftzwerg 88 (Diskussion) 02:27, 27. Dez. 2016 (CET)Beantworten