Wikipedia Diskussion:WikiProjekt Vorlagenauswertung/Archiv/2008

Neuer Dump

Letzter Kommentar: vor 17 Jahren5 Kommentare3 Personen sind an der Diskussion beteiligt

Es gibt wieder einen neuen Dump der deutschsprachigen Wikipedia. Ich weiß nicht, wie aufwändig eine neue Auswertung ist. Es wäre aber schön, eine Aktualisierung zu erhalten. Ich habe alle falschen Parameter der Vorlage Taxobox korrigiert und möchte dies nun mit der neuen Auswertung volenden. Vielen Dank für Eure Arbeit! Andim 20:11, 23. Jan. 2008 (CET)

Besten Dank für die Info. Ich muss mal schauen was sich da auf die Schnelle machen lässt. -- sk 23:05, 26. Jan. 2008 (CET)

Der neue de-Dump vom 21.01.2008 ist jetzt eingespielt. Es gab einen Anstieg von 3.7 auf 5.2 Mio. Parameter. --Kolossos 22:58, 4. Feb. 2008 (CET)

Vielen Dank, Andim 23:11, 4. Feb. 2008 (CET)

Das Wachstum war doch nicht so heftig, es ging nur von 5.2 auf 5.6 Mio Parameter. Da habe ich durch die DB-Server Umstellung etwas falsch gekuckt. --Kolossos 19:26, 6. Feb. 2008 (CET)

Fragen/Probleme zum neuen Dump (21.01.08)

Letzter Kommentar: vor 17 Jahren6 Kommentare3 Personen sind an der Diskussion beteiligt

ist es möglich die hier am anfang stehen den mit # beginnen zugänglich zu machen? Gab es bei früheren Datenbeständen nicht auch Seiten mit ifs oder wurden die abgearbeitet? Denn die Parserfunktion sollten ja nicht direkt im Artikelnamensraum auftauchen, da sie nur zur Vorlagenprogrammierung dienen sollten. Eine weitere Vorlage mit raute ist hier. Es scheint auch probleme mit den spitzen Klammern zu geben, siehe diesen aufruf: (siehe Quelltext) . Wie kommen die Einträge in error zustande? Die Vorlage Gutenberg Name erzeugt zwei einträge, da sie einmal mit einem Leerzeichen und einmal mit zwei Leerzeichen geschrieben wurde. MediaWiki interpretiert dies als eine Vorlage, wäre es möglich diese zusammenzufassen? Das gleiche ergibt sich mit und ohne Unterstrich als Leerzeichen oder den Anfangsgroß- und -kleinbuchstaben. Beispiele in nowiki sollten auch nicht auftauchen, siehe hier. Wie sieht es mit Vorlagen in Parametern aus? Diese werden anscheind nicht mit ausgewertet. Es sind viele Fragen und Anregungen. Über antworten würde ich mich freuen. Ich hoffe es ist teilweise technisch umsetzbar und der Aufwand lohnt sich dafür. Vielen Dank. Der Umherirrende 14:44, 5. Feb. 2008 (CET)

Die "#if..." habe ich bewußt rausgeworfen, ich dachte nicht, dass das einen Sinn haben könnte. Bei dem #-Route ist in der URL-Auswertung Schluß, da das wohl als HTML-Anker gedeutet wird, da muß ich mal schauen.

Zu den Error-Einträgen müßte sich Stefan mal äußern. Die 5 Gutenbergs mit 2 Leerzeichen sollten auf ein Leerzeichen korrigiert werden, da mir da das Mediawiki echt zu tolerant erscheint. Die Underlines sollten wir beim nächsten Dump im Gegenzug in Leerzeichen umwandeln. Bei den Anfangsgroß- und -kleinbuchstaben weiß ich noch nicht genau. Vorlagen in Parametern stehen auch bei mir ganz oben in der Wunschliste, schon weil wir Koordinatenvorlagen in den Infoboxen haben. Das Extraskript wird durch die rekursive Arbeitsweise aber ggf. auch langsamer und fehleranfälliger, das ist auf jedenfall eine komplexere Umstellung. --Kolossos 15:38, 5. Feb. 2008 (CET)

Ich fände es schon sinnvoll die "#if.."s zugänglich zu machen, um mal zu schauen was sich so im Artikel befindet. Ist es möglich auf einer (Unter-)Seite die Artikel zu nennen? Oder kann man ein skript über die datenbank laufen lassen, welches einfach alle Rauten entfernt, danach kann man die Seiten unter "if" wiederfinden. Machbar? Der Umherirrende 00:12, 12. Feb. 2008 (CET)

Das Entfernen der Rauten ist keine schlechte Idee, beim nächten Einspielen kommen die If's wieder rein, versprochen. --Kolossos 08:59, 12. Feb. 2008 (CET)

Schön, dass ihr weiterhin so fleißig bei der Arbeit seid. Noch eine Frage von mir: Ich hatte versucht die Namen von Vorlagen aus meiner lokalen Installation zu ermitteln. Die basiert auf einem älteren Dump von April 2007. Vorgagangen bin ich wie folgt: Sobald die beiden Zeichen "{{" im Text gefunden wurden, wurden anhand des Artikelnamens aus eurem Datndump die Namen der Vorlagen ermittelt. Allerdings habe ich so nur rund 20% der tatsächlich in dem jeweiligen Artikel vorhandenen Vorlagen gefunden. Kann das mit den verschieden alten Dumps zusammenhängen? Maziminke 00:44, 7. Feb. 2008 (CET)

Die Ursache liegt vielleicht darin, dass wir nur Vorlagen mit wenigstens einem Parameter auslesen. Also muss nach dem "{{" wenigstens ein "|" kommen. Für alle anderen Vorlagen steht ja alles in der Mediawiki-DB, da müssen wir nix auslesen. Seit April 2007 hat die Vorlagenverwendung ganz schön zu gelegt, vielleicht um 50%, die von dir angesprochenen 20% erklären sich damit aber wohl nicht. Beantwortet das deine Frage? --Kolossos 09:03, 7. Feb. 2008 (CET)

Fehlende Vorlage?

Letzter Kommentar: vor 17 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Hallo, beim Durchsuchen der Liste der erfassten Vorlagen fehlte mir eine: Die Vorlage:Portal-head2 taucht weder hier noch hier (Vorlagen mit kleinem p) auf. Dabei könnten mir die Daten momentan echt weiterhelfen. Woran mag das Nichtvorhandensein liegen? Grüße, --CyRoXX ^(? ±) 14:52, 2. Mär. 2008 (CET)

Hmm! Wenn ich das richtig sehe, dann wird die Vorlage nur auf Portal-Seiten benutzt. Wenn ich mich richtig erinnere lese ich nur Artikel-Seiten aus. Das heißt alles was mit "Bild:", "Diskussion:" oder eben "Portal:" anfängt wird nicht mit eingelesen. Der Grund dafür ist die Möglichkeit, dass auf solchen Seiten viel mehr Vorlagen-Müll zu finden ist, als wirklich mit Informationen versehene Vorlagen. Da ja dort auch sehr häufig erläutert wird wie so eine Vorlage aufgebaut werden und einzelne Code-Schnipsel im Text zu finden sind, die nicht sauber als solches vom Rest zu trennen sind, müsste ich viel Mühe in das Abfangen von Fehlern aufwenden. --sk 15:07, 2. Mär. 2008 (CET)

Zeitpunkt neuer Dumps

Letzter Kommentar: vor 17 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Hallo! Gibt es eine Möglichkeit zu erfahren, wann ein neuer Dump vorliegt, und wann kann man auf diesen zugreifen?. Grüße --cwbm 01:17, 3. Mär. 2008 (CET)

Ich habe gerade geupdated. Wenn du dir Wikipedia:WikiProjekt Vorlagenauswertung/news auf die Beobachtungsliste setzt, kannst du immer auf dem aktuellen Stand bleiben. --Kolossos 22:41, 3. Mär. 2008 (CET) P:S: Bitte verlinke deine Unterschrift zu deiner Benutzerseiten, das vereinfacht die Kommunikation. --Kolossos 22:43, 3. Mär. 2008 (CET)

Super, danke!--cwbm 22:46, 3. Mär. 2008 (CET)

Unter http://download.wikipedia.org/dewiki/20080320/ gibt es wieder einen neuen Dump. Andim 02:46, 22. Mär. 2008 (CET)

For English WP: http://download.wikimedia.org/enwiki/20080312/ -- User:Docu

Unter http://download.wikipedia.org/dewiki/20080422/ gibt es wieder einen Dump der deutschsprachigen Wikipedia. Andim 22:50, 23. Apr. 2008 (CEST)

Interwiki-Commons-Auswertung

Letzter Kommentar: vor 17 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Auf der Frontseite heißt es so schön: „Ein Vergleich der Nutzung zweier gleicher Vorlagen in verschiedenen Sprachen über die Interwikilinks wäre sicher auch spannend.“ Allerdings! :-)

Es ist manchmal schwierig, auf Commons die richtige Seite/Kategorie zu einem Artikel zu finden – und bei dem Nichtfund noch viel schwieriger sich sicher zu sein, dass man nichts übersehen hat. Eine Arbeitserleichterung wäre da eine Liste aller Artikel in dewp, die keine Vorlage der Commons…-Familie enthalten, aber einen Interwikilink aufweisen, der wiederum eine Commons…-Vorlage verwendet.

Die Auswertung könnte man sicherlich auf den bestehenden Tabellen fahren, von der Performanceseite wäre es allerdings wahrscheinlich besser, bei dem Einlesen des Dumps bei jedem Artikel ein zusätzliches Attribut „Verweist auf Commons“ zu speichern und dann daraus die Liste zu erstellen. --Tim Landscheidt 13:06, 23. Mai 2008 (CEST)

Ich dachte, in die Richtung geht schon FIST, was du dir als Gadget vom Toolserver einbinden kannst. Allerdings wäre http://tools.wikimedia.de/~kolossos/templatetiger/tt-table4.php?template=Commons&lang=de&where=&is= sicherlich auch interessant mit der engl. Version zu vergleichen. Die Datenbanktabellen samt der IWL-Tabellen sind für jeden mit Toolserver-Account zugänglich. Und sicherlich nicht allzu schwierig umzusetzen. Momentan fehlt mir etwas die Zeit, prinzipiell würde ich aber gerne eine bessere Commonseinbindung unterstützen. --Kolossos 15:04, 23. Mai 2008 (CEST)

Ja, aber bei FIST muss ich jeden Artikel ohne Commons…-Vorlage aufrufen, das FIST-Gadget anklicken und überprüfen, ob Medien auf Commons vorhanden sind. Das möchte ich ja gerade automatisieren! :-) Und zwar genau so, wie Du es vorschlägst: Die Liste der deutschen Commons/Commonscat-(Nicht-)Einbindungen mit denen der entsprechenden Interwikis abgleichen. Leider ist mein Toolserver-Account noch in der Warteschleife, und über den Query Service eine solche Abfrage zusammen zu basteln macht keinen Spaß. --Tim Landscheidt 15:23, 23. Mai 2008 (CEST)

Frage zu komplizierter Kombination von Vorlagenwerten

Letzter Kommentar: vor 17 Jahren10 Kommentare3 Personen sind an der Diskussion beteiligt

Hallo zusammen, ich brauche eine Kombination von Daten, die ich hoffe aus den Vorlagendaten extrahieren zu können. Zunächst bräuchte ich eine Liste der am häufigsten gesprochenen Sprachen. Es müsste doch zu jedem Land die offizielle Landessprache sowie die Einwohnerzahl zu ermitteln sein, oder? Weiterhin bräuchte ich zu jedem Land die Anzahl der vorhandenen Internetanschlüsse, sofern diese Daten überhaupt innerhalb der Wikipedia verfügbar sind?! Die Daten würde ich mir gerne kombinieren, so dass ich eine Liste habe, die die Anzahl der Internetanschlüsse je Sprache enthält. Die Daten müssen nicht 100%ig genau und vollständig sein. Geht das irgendwie? Mir würden natürlich auch die Teildaten genügen, so dass ich mir das selbst zusammen stellen kann. Maziminke 01:30, 22. Mai 2008 (CEST)

Sprachen und Einwohnerzahlen sollten mit Vorlage:Infobox Staat (AMTSSPRACHE, EINWOHNER) zu machen sein. Für Internetanschlüsse seh' ich in der WP eher schwarz. Die gibt's dort nicht und Liste der Internetanschlüsse auch nicht. Hier etwas für A (via Google gefunden). Ansonsten bleibt dir wohl nur der (steinige) Weg zu Statistischen Zentralämtern, Ministerien oder sonstigen Einrichtungen die sich mit Statistiken befassen, von denen ich dir aber jetzt keine nennen könnte. --Geri ✉, 05:21, 22. Mai 2008 (CEST)

Danke für die Info, das hilft mir schon ein wenig weiter. Da die Anzahl der Internetanschlüsse wohl kaum zu ermitteln ist, kämen alternativ auch andere Parameter in Frage, die ebenfalls in der Formatvorlage Staat vorhanden sind wie Bruttosozialprodukt/Kopf oder Human Development Index. Leider sind diese Parameter optional. Gibt es da Erfahrungswerte, bei wie vielen der Länder einer oder beide Parameter vorhanden sind oder kann man das irgendwie abfragen? Vielen Dank für die Hilfe! Maziminke 04:35, 23. Mai 2008 (CEST)

Was wir nicht wissen, weiß noch nur die CIA.;-) Über Internetanschluss kam ich auf the world fact-book dort steht wieviele Internet-users es in Algerien, etc. gibt. So dynamisch wachsende Zahlen sind wohl auch nix für die Wikipedia. Ansonsten kannst du auch dir die neuen [http://stats.grok.se/de/200802/Beispiel Zugriffsstatistiken ranziehen, davon gibt es auch Dumps die auf eine Auswertung warten. --Kolossos 07:39, 23. Mai 2008 (CEST)

Hallo Kolossos, das könnte ich als weitere Quelle heranziehen. Ist es denn mit eurer schönen Vorlagenauswertung möglich, zu jedem Land die Sprache sowie das BIP/Kopf und/oder den Human Development Index zu bestimmen? Wie ist da so die Datendichte?Maziminke 15:39, 23. Mai 2008 (CEST)

Da mußt du echt mal selber schauen, keine Ahnung. --Kolossos 15:45, 23. Mai 2008 (CEST)

Ich habe mal ein bisschen herumgespielt und bin schon zu ersten Ergebnissen gekommen, siehe Beispielabfrage. Eine letzte Frage hätte ich noch: Wie kann ich nach BIP/Kopf filtern, so dass nur Einträge mit BIP/Kopf > 1000 angezeigt werden? Das müsste doch auch irgendwie funktionieren? Ich finde aber nur Filterfunktionen mit Spaltenname = xyz und nichts mit Spaltenname > zyx!? Maziminke 11:39, 25. Mai 2008 (CEST)

Die Abfrage sieht schon mal gut aus. Mathematische Vergleiche sind sehr schwierig, da in den Feldern auch noch Text drinnen steht: Mio., Mrd., Währung (vor oder hinter der Zahl), (Stand von ...), (sonstige Anmerkungen), etc.

Da müßte man über eine komplizierte Kombination von DB-Funktionen, oder über eine selbst geschriebene gespeichterte Funktion, erst die richtige Zahl herausfiltern, und die dann für den Vergleich verwenden. Ein sehr, sehr großer Aufwand, da man alle möglichen Fälle von Zahl/Text-Kombinationen + die Multiplikatoren (Tsd., Mio., Mrd.) berücksichtigen müsste. Ganz abgesehen davon, dass z.B. bei Österreich dort mehrere Werte drin stehen. --Geri ✉, 17:24, 25. Mai 2008 (CEST)

Ich würde auch vorschlagen, dass du dir das in eine Tabellenkalkulation kopierst und da dann alles weitere treibst was wirklich recht spezifisch ist. --Kolossos 22:55, 25. Mai 2008 (CEST)

Tabellenkalkulation wird wohl die beste Möglichkeit sein. Besten Dank für eure Hilfe und Vorschläge. Maziminke 23:07, 25. Mai 2008 (CEST)