Zum Inhalt springen

Wikipedia Diskussion:WikiProjekt Vorlagenauswertung

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 22. September 2008 um 23:19 Uhr durch Tim.landscheidt (Diskussion | Beiträge) (Kontinuierlicher Import?). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 16 Jahren von Tim.landscheidt in Abschnitt Kontinuierlicher Import?
Archiv
Wie wird ein Archiv angelegt?

Neue Daten und Speed

Die Sprachen de,cs,es,fi,fr,nds,pt und ru sind jetzt eingespielt. Da ich einmalig die Nutzungsanzahl der einzelnen Vorlagen in jeweils eine eigene zusätzlich Tabelle schreibe und diese dann wiederholt nutze dürfte das Programm geschwindigkeitsmäßig kaum wiederzuerkennen sein (Es ist jetzt schnell). Jetzt könnten wir Leute für eine internationale Zusammenarbeit gebrauchen. Oder wer kann das Programm bekannt machen? Kolossos 23:08, 18. Apr. 2007 (CEST)Beantworten

Interessante Erkenntnisse / Trivia

Ich wollte mal hier eine Liste beginnen, um zu sammeln was es so zu entdecken gibt, ohne die Projektseite aufzuweichen, die Liste kann gerne ergänzt werden (Kolossos 17:02, 27. Apr. 2007 (CEST)) :Beantworten

  • Die Russen scheinen sich besonders für Galaxien zu interessieren.
  • ...

Beteiligt euch an der dortigen Diskussion, wenn ihr ohne große Mühen Vorlage:Infobox Flughafen auslesen wollt. --BLueFiSH  (Langeweile?) 16:24, 16. Jul. 2007 (CEST)Beantworten


en wiki dump

Great project! BTW in case you are interested, an new dump is available at http://download.wikimedia.org/enwiki/20070716/ -- User:Docu

Thanks for this info. Yesterday I download the new dump. And tomorrow I will start the new script run. Maybe next week User:Kolossos has time to update the database. -- sk 13:28, 22. Jul. 2007 (CEST)Beantworten
Thank you for updating it. Great! -- User:Docu

Löschantrag auf Vorlage:Personendaten

Hallo liebe Vorlagenauswertler. Ich möchte euch darauf hinweisen, dass die Löschung von Vorlage:Personendaten zur Debatte steht. Gruß, --Church of emacs 11:59, 31. Mai 2008 (CEST)Beantworten

Fehlende Gesamtanzahl bei Vorlage:Coor dm und Vorlage:Coor dms

Bei den genannten Auswertungen wird als dargestellter Bereich „0 - of“ angegeben. --Tim Landscheidt 09:10, 18. Jul. 2008 (CEST)Beantworten

en wiki dump

Just in case you'd have some time to run the script, a new version is available at http://download.wikimedia.org/enwiki/20080724/ It would be nice to have an updated version of the coordinates extraction. -- User:Docu

Wikipedia:Löschkandidaten/13. August 2008#Vorlage:Cite web

Hallo. Vielleicht könnte jemand dort vorbeikucken und meine Ausführung fachkundig erläutern. Danke. --Matthiasb 22:22, 13. Aug. 2008 (CEST)Beantworten

Index der numerischen Parameter

Es würde mehr sinn machen, wenn die Indexierung der numerischen Parameter innerhalb der Vorlagenauswertung bei 1 beginnt, da auch MediaWiki bei eins beginnt und somit auf jeden Fall das gleiche gemeint ist, gerade bei mehreren numerischen Parameter kann man leicht durcheinander kommen. Es sollte nicht nur die anzeige manipuliert werden, da dann die Abfragen erschwert zu erstellen sind, die Bezug auf die Parameter nehmen, daher muss es schon innerhalb der Datenbank Veränderungen geben. funktioniert jetzt/sollte nachher funktionieren. Vielen Dank. 80.143.71.71 20:21, 18. Aug. 2008 (CEST)Beantworten

Nachtrag: Wie werden eigentlich die expliziten Angaben gehändelt? Wird ein 1= auch dem Index 0 zugeordnet oder dem Index 1? Dies müsste ja dann auch entsprechend bei einer umstellung berücksichtigt werden. 80.143.71.71 21:15, 18. Aug. 2008 (CEST)Beantworten
Da bin ich jetzt auch darüber gestolpert; das ist momentan äußerst ungünstig. IMHO ist es essentiell, dass beispielsweise {{Commonscat|A|B}} zu demselben Datenbankeintrag führt wie {{Commonscat|1=A|2=B}}. Gleichermaßen sollte berücksichtigt werden, dass bei {{Literatur|Titel=A|B}} der Parameter, der den Wert B enthält, den Namen 1 (und nicht 2 wie derzeit) erhält. Andernfalls ist die Auswertung unnötig schwierig. --Tim Landscheidt 12:45, 22. Sep. 2008 (CEST)Beantworten

TigerGui RegExp

hallo, ich hab probleme mit der: ich hab eine RegExp mit http://regexp-evaluator.de/evaluator/ getestet, aber dort klappt sie nicht - hat die Gui da eine macke, oder gibt es noch irgendwelche sonderregeln zu beachten? gruß --W!B: 13:04, 27. Aug. 2008 (CEST)Beantworten

Was die von dir angegebene Webseite macht, weiß ich nicht. Wir geben die RegExp einfach nur an MYSQL weiter. --Kolossos 13:54, 27. Aug. 2008 (CEST)Beantworten
wir haben bei Vorlage:Internetquelle diskutiert, ob TemplateTiger eine nachkontrolle machen kann, ob die datumsangaben in den zitier-vorlagen korrekt sind (geht um en:WP-importdaten)
zuletzt hab ich eine RegExp angegeben, kurzfassung:
^[1-9]{1,2}\.{1}(\s| ){1}.*$ - ein oder zwei Zahlen, ein Punkt, ein space oder nbsp
sollte mal die meisten en-daten ausfiltern
geb ich das aber in der TigerGui ein
Vorlage =Internetquelle
Suchfeld =datum
in Übereinstimmung mit =obiges
regex=yes
gibt aber kein treffer [1], und mit
not=yes
sollte eigentlich kein datum dieser form erscheinen: tuts aber [2] - was mach ich falsch?
übrigens hab ich auch obeiges
in Übereinstimmung mit =^$ … für leereinträge
probiert, aber da kommt auch kein ergebnis [3] --W!B: 15:14, 27. Aug. 2008 (CEST)Beantworten
Ich kenne zwar die TigerGui nicht, hatte aber ein ähnliches Problem mit \d aus den XML-Vorlagenbeschreibungen, das in JavaScript (und den meisten modernen Sprachen) als Ziffer gewertet wird, aber von MySQL nicht unterstützt wird. Wenn man \d (und auch die merkwürdige, aber in JavaScript zulässige Schreibweise [\d]) durch [0-9] ersetzte, lösten sich die Probleme aber in Luft auf. Vielleicht versuchst Du einmal, in Deinem regulären Ausdruck das \s, das auf Leerzeichen & Co. passen sollte, durch ein Leerzeichen (und gegebenenfalls einen Tabulator und dergleichen) zu ersetzen. --Tim Landscheidt 12:51, 22. Sep. 2008 (CEST)Beantworten

Kontinuierlicher Import?

Da der letzte Datenbankdump ja schon etwas länger her ist und dessen Regelmäßigkeit sowieso problematisch ist: Habt Ihr schon einmal über einen (quasi) kontinuierlichen Import nachgedacht? I. e., jeden Tag/jede Woche die Artikel, die an dem Vortag/in der Vorwoche geändert wurden, neu zu importieren? --Tim Landscheidt 12:54, 22. Sep. 2008 (CEST)Beantworten

Wie du hier sehen kannst gibt es derzeit keine aktuellen Dumps. Deshalb ist das mit der Auswertung nicht kontinuierlich möglich, da die Skripte auf dem Dump aufbauen. Außerdem wurde durch die Umstellung des Toolservers die Filterung der englischen Wikipedia derzeit unmöglich gemacht. Das Skript hat nicht genug Speicher zur Verfügung und bricht ab. Hier will ich mein Skript umschreiben, aber das hat auf meiner To-Do-Liste nicht die höchste Priorität. Wenn neue Dumps verfügbar sind, spielen wir die eigentlich auch immer Zeitnah ein. -- sk 22:13, 22. Sep. 2008 (CEST)Beantworten
Ja, das meinte ich ja mit dem „länger her“: Es werden derzeit (und wohl noch mindestens eine Woche) keine Dumps produziert; und da das ein regelmäßiges Problem ist, die Frage, ob man nicht auf ein anderes, kontinuierliches Importverfahren umstellen könnte, bei dem nicht ein kompletter Dump importiert wird, sondern nur die Artikel, die an dem Vortag/in der Vorwoche geändert wurden (recentchanges), neu aus der Live-Wikipedia eingelesen werden. --Tim Landscheidt 23:19, 22. Sep. 2008 (CEST)Beantworten

Vorlagen als Parameter werden gesplittet

Wenn ein Parameter eine Vorlage ist, wird der Wert gesplittet und aus dem }} ein neuer (namenloser) Parameter, Beispiel: Histidin und Vorlage:Infobox Chemikalie. --Tim Landscheidt 12:58, 22. Sep. 2008 (CEST)Beantworten

Naja es sind nicht alle Vorlagen, sondern solche mit Pipe, z.B: {{R-Sätze|-}} . Daran sollten wir aber auch arbeiten. --Kolossos 21:21, 22. Sep. 2008 (CEST)Beantworten
Die Auswertung der einfachen Vorlagen ist in Planung. -- sk 22:10, 22. Sep. 2008 (CEST)Beantworten