Benutzer:SirJective/Datenbank-Abfragen
Hier koennt ihr mir Anfragen fuer Abfragen hinterlassen, wenn ihr mich nicht im Wikipedia:Chat trefft.
Eine allgemeinere Seite ist Wikipedia:Datenbank-Abfragen, die ich ebenfalls beobachte und dortige Anfragen zu erfuellen suche.
Eine Liste der meisten in der WP stehenden Datenbank-Abfragen ist hier: Benutzer:SirJective/Seiten mit Datenbank-Abfragen.
Was ich kann und nicht kann
Ich kann selbst Abfragen ausfuehren, die nur folgende Daten erfordern:
- die Artikel in der neuesten Revision,
- die Verlinkungsinformation (Links auf vorhandene oder fehlende Artikel),
- Kategorie-Einordnung der Artikel,
- die Angaben, wann welches Bild von wem hochgeladen wurde.
Nicht bearbeiten kann ich Abfragen, die eine der folgenden Daten erfordern:
- aeltere Artikelversionen (weil die Datenbanktabelle einfach zu gross ist um sie regelmaessig runterzuladen),
- Benutzerdaten (Einstellungen, Emails etc.), und Beobachtungslisten (sind Verschlusssache).
Wenn ihr eine Abfrage wollt, die diese Daten verwendet, wendet euch an meta:Requests for queries, aber denkt daran, dass persoenliche Daten normalerweise nicht rausgegeben werden.
Welche Informationen ich von euch brauche
Die meisten Anfragen sind von der Art "gib mir eine Liste aller Artikel, die XXX enthalten". Da brauche ich neben dem genauen Suchwort (oder den Suchwoertern) noch die Angaben:
- nur Artikel, oder auch andere Namensraeume (wenn ja welche),
- ob Redirects, BKS oder andere Seiten ausgeschlossen werden sollen (oder in der Ausgabe markiert werden sollen),
- welche Daten des Artikels (Titel, letzter Bearbeiter, letzte Bearbeitungszeit, etc.),
- Sortierreihenfolge (Titel, Zeit, etc.).
Immer brauche ich die Angabe
- auf welcher Seite das Ergebnis gespeichert werden soll (z.B. eine Benutzer-Unterseite).
Bei komplexeren Anfragen schreibt auf, was euch wichtig ist, ich werde ggf. nachfragen.
Erledigte Anfragen
Ich schreibe meistens die verwendete SQL-Abfrage mit auf die Ergebnisseite oder die zugehoerige Diskussionsseite: Fuer mich als Sicherungskopie und fuer andere die wie ich lernen wollen, wie man die Abfrage realisieren kann.
Artikel mit id="toc"
Alle Artikel, Vorlagen mit 'id="toc"' -> Benutzer:Paddy/Idtoc und Benutzer:Paddy/Idtoc-Vorlage. --SirJective 14:57, 10. Nov 2004 (CET)
Verwaiste Bilder
Liste der verwaisten Bilder, von Benutzer:Darkone erbeten.
Kann ne Weile dauern, da die imagelinks-Tabelle nicht zum Download angeboten wird und die Durchsuchung der Artikelquelltexte ein Programm erfordern würde. --SirJective 17:08, 13. Nov 2004 (CET)
- S.a. Wikipedia:Ich_brauche_Hilfe#.22Verwaiste_Bilder.22_Liste (21:42, 16. Nov 2004)
- Da laut APPER die Spezialseite Spezial:Unusedimages stets aktuell ist, hat sich die Sache für mich erledigt. --SirJective 21:50, 16. Nov 2004 (CET)
Flugzeuge der Lufthansa
Alle Artikel zu Maschinen der Lufthansa (Beispiel), für LeonWeber, 17. Nov 2004.
- Suchbegriff: am besten "Flugzeug der Lufthansa", vielleicht auch abgewandelt wenn du eine bessere idee hast.
- nur Artikelnamensraum
- redirects und bks markieren
- Daten: am besten alles, was du rankriegst
- Sortierreihenfolge: Titel, alphabetisch, austeigend (A...Z)
- Speicherort: Auf meiner Diskussionsseite
valign="center"
Diese HTML-Eigenschaft ist eigenmtlich völliger Humbug (bewirkt einfach gar nichts, weil es das nicht gibt!). Trotzdem ist das ganze wohl mal in irgendeiner Vorlage gelandet und wuchert seitdem. Bitte mal eine Liste, wo überall! (zwecks Entsorgung) TheK(?!) 21:07, 21. Nov 2004 (CET) Und irgendwo bei mir ablegen ;-) --Paddy 21:12, 21. Nov 2004 (CET)
- goto Benutzer:Paddy/valigncenter :) --SirJective 14:11, 22. Nov 2004 (CET)
- Du bist ja immer echt fix ;-) Vielen herzlichen Dank wieder einmal. --Paddy 16:47, 22. Nov 2004 (CET)
subst:TOC
Ich würde gerne wissen wo überall:
__NOTOC__ ---- <div style="text-align:center;"> [[#A|A]] [[#B|B]] [[#C|C]] [[#D|D]] [[#E|E]] [[#F|F]] [[#G|G]] [[#H|H]] [[#I|I]] [[#J|J]] [[#K|K]] [[#L|L]] [[#M|M]] [[#N|N]] [[#O|O]] [[#P|P]] [[#Q|Q]] [[#R|R]] [[#S|S]] [[#T|T]] [[#U|U]] [[#V|V]] [[#W|W]] [[#X|X]] [[#Y|Y]] [[#Z|Z]] </div> ----
In als Text ersetzt wurde also mittels {{subst:TOC}}. Vielleicht lässt sich das finden und ändern. Vielen Dank. mfg --Paddy 18:12, 18. Nov 2004 (CET)
- Bitte schön: Benutzer:Paddy/subst_TOC. --SirJective 20:00, 18. Nov 2004 (CET)
- Das kann doch nicht alles gewesen sein? Ich kenne noch einige so. Hmm. liegt es vielelicht an der Vielfalt: Vorlage_Diskussion:TOC#Meinungsbild? --Paddy 18:51, 20. Nov 2004 (CET)
Bitte beim übernächsten oder drittnächsten dump aktualisieren ;-) --Paddy 19:19, 20. Nov 2004 (CET)
Seiten im Vorlagen-Namensraum
Hallo, ich habe gesehen, dass Du für die Seite Wikipedia:Seiten_im_Vorlagen-Namensraum eine schöne SQL-Abfrage zusammengebastelt hast. Mir ist jedoch aufgefallen, dass einige Vorlagen dort nicht auftauchen. Daher die Frage, ob das daran liegt, dass die Seite nicht aktuell ist oder ob dafür an den Abfragen noch etwas geändert werden muss.
Konkret aufgefallen ist mir das bei der Vorlage:Navigationsleiste Verbandsgemeinden im Westerwaldkreis. Diese taucht zwar auf, es gibt aber noch untergeordnete Navigationsleisten, die z.B. hier verlinkt sind und in der großen Liste nicht auftauchen.
Es wäre nett, wenn Du Dir das mal angucken würdest. Danke!
- Hallo, die Voll-Aktualisierung ist schon eine Weile her, alles nach dem September wurde manuell eingetragen. Die genannten Vorlagen sind neuren Datums und vermutlich einfach übersehen worden. Mit dem nächsten Datenbank-Dump werde ich die Liste aktualisieren. --SirJective 21:40, 24. Nov 2004 (CET)
- Hallo, super und vielen Dank für Deine Hilfe!
- Hallo, habe gerade gesehen, dass Du die Übersicht jetzt neu erstellt hast. Nochmals besten Dank!
Kategorien mit höchstens 2 Artikeln
Hallo, ist es möglich, eine Liste mit allen Kategorien, die höchstens 2 Artikel enthalten, zu erstellen? Da dürften einige bei sein, die nicht wirklich gebraucht werden... --Ezrimerchant 19:28, 13. Dez 2004 (CET)
- Siehe Benutzer:Ezrimerchant/Sehr kleine Kategorien und Diskussion. --SirJective 16:06, 14. Dez 2004 (CET)
jahrestage / linkspam
Benutzer:Hoch auf einem Baum lässt sich seit Dezember 2004 auf der Seite Bebilderte Jahrestage Listen der bebilderten Artikel geben, die von Datumsartikeln verlinkt sind.
Die gewünschte Beachtung von Redirects hatte ich mal, jetzt aber wieder nicht mehr: Falls der Datumsartikel über einen Redirect auf einen bebilderten Artikel verweist, sollte dieser geliefert werden.
Wir überlegen noch, die gelieferten Links in einer Kopie des Datumsartikels hervorheben zu lassen, um die Relevanz der Artikel schneller einschätzen zu können. Ein Möglichkeit dazu ist, nur die gefundenen Links im Text zu behalten, oder die Links optisch stärker hervorzuheben.
Eine von dieser Anfrage unabhängige Idee ist, die Artikel der Vorlagen "Hauptseite Jahrestage TT. Monat" halbautomatisch im Datumsartikel zuverlinken, falls der Eintrag noch fehlt. Dabei müsste der richtige Abschnitt (Geboren/Gestorben/Ereignisse) und darin die richtige Zeile gefunden werden. Die Identifikation der nicht verlinkten Artikel ist zwar relativ einfach, wünschenswert wäre aber eine Möglichkeit, den Artikel gleich richtig in den Datumsartikel einzutragen.
Linkspam der Form "http://%tiscali.%/" wurde am 24. Dez 2004 auf Benutzer:Hoch auf einem Baum/Tiscali gesammelt.
Bilder
Huhu, ich mal wieder. Auf Benutzer:Crux/Linksschreibung hätte ich demnächst gerne die 100 ältesten mit {{Bild-Lizenz-unbekannt}} (älteste zuerst, ohne Datumsangabe) und die 50 ältesten mit {{LöschantragBild}} (älteste zuerst, mit Datumsangabe). Und einen kleinen Salat. --Danke ;) Crux ふ 16:11, 2. Jan 2005 (CET)
- Reicht's, wenn ich es mit dem nächsten Dump mache, oder soll ich die Daten vom 30.12. verwenden? --SirJective 18:08, 4. Jan 2005 (CET)
- Erledigt, und hier dein Salat:
- http://www.estarcion.com/shock/food/images/duanebday02/Pages/Image1.html ;)
- --SirJective 18:44, 11. Jan 2005 (CET)
Neue Anfragen
Schreibt hier neue Anfragen auf. Ich nutze diese Seite ebenfalls um mir Anfragewuensche aus dem Chat zu merken, die ich nicht sofort ausfuehren kann.
Wikiquote
Hallo, es geht um das Finden von langen Zitaten, die Urheberrechtlich bedenklich sind. Rechtlich besonders bedenklich sind in der Zitatsammlung Wikiquote alle Zitate, die nicht mehr als Kurzzitat gelten können. Da alle Zitate in "Anführungszeichen" stehen sollten und durch Aufzählungszeichen getrennt sind müßte es eigentlich möglich sein die bedenklich langen Zitate durch eine SQL-Abfrage zu finden oder? --Timt 00:23, 17. Dez 2004 (CET)
- Hallo Timt,
- das Projekt Wikiquote scheint mehrere Diskussionsseiten zu haben, wo Urheberrechtsfragen besprochen werden. Hast du dort schon eine Seite, auf der speziell die langen Zitate thematisiert werden?
- Ich kann den Dump von wikiquote runterladen und versuchen, lange Zitate zu identifizieren. Ob es durch reines SQL geht, muss ich schauen (ggf. erweitere ich mein JAVA-Programm). Ich setz mich bei Gelegenheit ran. --SirJective 12:17, 17. Dez 2004 (CET)
- Im Moment eilt es noch nicht, da es im Moment noch einigermassen überschaubar ist, wer was anlegt und wie gross es ist, aber in letzter Zeit nimmt die Beteiligung doch zu und dann könnte es unübersichtlich werden. Das mit der Diskussionsseite ist nee gute Idee, ich werde es wohl mal in die Richtlinien aufnehmen. --Timt 22:10, 17. Dez 2004 (CET)
Erinnerung
Ich sollte dich doch an mein Kat:Person-Abo erinnern :-) Danke, Gruß, Leon ¿! | 1,2,3 23:13, 7. Jan 2005 (CET)
- I.O.: Benutzer:LeonWeber/Artikel_in_Kategorie:Person, mit jedem Dump erneuern. --SirJective 18:44, 11. Jan 2005 (CET)
math durch sup oder sub ersetzen
Hallo SirJective, im IRC riet man mir, mich mit folgender Bitte an dich zu wenden. Ich würde gerne in den mathematisch orientierten Artikeln ein wenig aufräumen und dort, wo unnötigerweise der math-Tag verwendet wurde, sub-Tags einbauen, z.B. statt Ai usw. Hierzu wäre eine vernünftige Datenbank abfrage mit entsprechenden regulären Ausdrücken hilfreich, die eine Liste der Artikel erzeugt, die man daraufhin abklopfen kann. In erster Näherung könnten das z.B. alle math-Tags sein, die nicht mehr als 3 Zeichen enthalten, da es sich dabei meist um derartige Kurzausdrücke mit Index oder Exponent handeln dürfte, die man ersetzen kann. Vielleicht fällt dir auch noch was Schlaueres ein. Kannst du mir mitteilen, ob und falls ja wann eine solche Liste machbar wäre? Die Liste kannst du z.B. unter Benutzer:Mkleine/Ablage speichern. Viele Grüße --Mkleine 00:28, 13. Jan 2005 (CET)
- Gibt es für dieses Vorhaben Zustimmung seitens anderer Bearbeiter mathematischer Artikel? Bitte diskutiere dieses Vorhaben zunächst auf der Projektseite oder der Portalseite. Eine zentrale Frage, die bisher noch nicht zufriedenstellend geklärt wurde, ist, wo math-Tags nötig oder unnötig sind, und wo sie erwünscht oder unerwünscht sind.
- Meine Meinung dazu ist: Will man reines HTML verwenden, dann sollte man Ai schreiben. Damit erhält man in der Ausgabe fast dasselbe Ergebnis wie mit (die Schriftart ist anscheinend eine andere). Andererseits bin ich im Hinblick auf eine zukünftige Erweiterung durch MathML oder andere Darstellungsformen, und zusätzlich zum Zwecke einer semantischen (statt einer syntaktischen) Textauszeichnung, eher dazu geneigt, die vorhandenen mathematischen Verwendungen von sup und sub durch math ersetzen zu wollen. --SirJective 11:43, 13. Jan 2005 (CET)
- Ich verweise in dieser Frage zunächsteinmal auf das folgende Zitat aus Wikipedia:TeX: "Bei Fragen zum Stil bezüglich des Setzens von mathematischem Code, siehe WikiProjekt Mathematik. Insbesondere sollte dies als Teil einer Zeile oder Fließtextes vermieden werden, da die Formeln in der Zeile nicht richtig ausgerichtet werden und die Schrift zu groß ist." Diese Richtlinie gilt imho seit vielen Monaten unverändert. Ich persönlich bin nicht an politischen Diskussionen dieser Art interessiert und war davon ausgegangen, dass die genannte Richtlinie eindeutig ist. Ich wäre bereit, diese Richtlinie ggf. wie oben beschrieben umzusetzen. Sollte die Frage tatsächlich ein diskussionswürdiges Thema sein, so sollte dies von den Mathematikern gelöst werden - ich ziehe mich dann hiermit wieder zurück. --Mkleine 12:16, 13. Jan 2005 (CET)
- Ja du hast recht, dort und auch auf des Projektseite wird empfohlen, für einfache Ausdrücke HTML zu verwenden und komplexere Ausdrücke abzusetzen. Ich werde die Frage nach der Akzeptanz dieser Regel an geeigneter Stelle stellen. Sobald ein klares Meinungsbild vorliegt, melde ich mich bei dir. --SirJective 12:43, 13. Jan 2005 (CET)
- Bisher gab es wenige Stimmen dafür und wenige Stimmen dagegen. Wie im IRC besprochen, genügt uns das noch nicht als Grundlage für weitreichende Ersetzungen. Du kannst gern einzelne Stellen ändern, die dir auffallen; so wie andere das auch tun (nur teilweise in die andere Richtung). --SirJective 20:08, 25. Jan 2005 (CET)
Personendaten
Auf Anfrage von srb am 15. Jan 2005, 04:40 (CET) hatte ich mich damit beschäftigt, anlässlich der Wikipedia:Wikipedia-Distribution die Erfassung der Personendaten zu unterstützen. Gewünscht wurde eine Liste von Artikel in Kategorie:Person und Unterkategorien, abzüglich einzelner Kategorien wie Kategorie:Fiktive Person, die noch keine Personendaten haben.
Im Dump vom 7. Januar fand ich 1637 Kategorien, die unter Person aber nicht unter Fiktive Person oder Personengruppe liegen, sowie 32.879 Artikel in den genannten Kategorien, davon 27.406 ohne Personendaten.
Unter Verwendung von APPERs Tool, welches die Eintragung von Personendaten in den meisten Fällen auf wenige Klicks reduzierte, verringerte die "Wikipedia Tagging-Party" die Anzahl der verbleibenden Artikel drastisch. Dadurch gab ich meine Versuche auf, die Artikel nach Kategorien zu sortieren, und hab am 5. Februar nach zwei Teil-Listen endlich die Liste Benutzer:SirJective/Personen ohne Personendaten erstellt.
(Zusammenfassung --SirJective 17:50, 26. Feb 2005 (CET))
unkategorisierte Personen
Am 15. Januar 2005 hatte Stern die Idee, nach bisher unkategorisierten Personenartikeln zu suchen. Die von Stern und srb vorgeschlagenen Suchkriterien
- "(* ... )", "(† ...)", "(* ... † ...)"
fand ich 1800 Artikel, die ich in einer Liste hochlud: Benutzer:SirJective/Unkategorisierte Personen.
Diese Liste enthielt viele Artikel, in denen Lebensdaten von Personen angegeben wurden, die aber keine Personenartikel waren. Eine Beschränkung der Suche auf den ersten Absatz wurde verworfen, weil zuviele Artikel nicht mehr erkannt wurden (Daten vor dem ersten Textabsatz bereiteten Probleme).
Seit dem 27. Januar werden zusätzlich unkategorisierte Artikel geliefert, die die Personendaten-Vorlage verwenden, und solche, die bis zum Ende des ersten Absatzes, der eine Fettschrift-Markierung enthält, eines der Wörter "geboren", "gestorben", "lebte" verwendet.
Eine weitere Idee, am 18. Januar von srb vorgeschlagen, ist, alle Artikel aufzulisten, die in und nur in Wartungskategorien eingeordnet sind. Ziel ist es, diesen Artikeln mehr Aufmerksamkeit zukommen zu lassen, indem man sie thematisch kategorisiert und den zugehörigen Projekten und Portalen bekanntmacht. Sie sind nämlich technisch gesehen kategorisiert und fallen dadurch aus der Liste der unkategorisierten Artikel raus. Auszuschließen wäre da die Löschkandidaten, da die ja sowieso behandelt werden. Als Beispiel wurde meine Liste Benutzer:SirJective/Kurze Artikel/Astronomie genannt: Sie umfasst nur Artikel, die bereits kategorisiert sind. Zur Lösung dieses Problems müssten die Artikel erst kategorisiert werden.
Meine am 25. Januar gegebenene Zusage, die Liste der nur in Wartungskategorien eingeordneten ArtikelTM anzulegen, muss ich noch einlösen.
Zusammenfassung: --SirJective 14:07, 8. Mär 2005 (CET)
Schauspieler und Filmtitel ohne Vorlage
Hallo Christian,
zusammen mit Benutzer:BLueFiSH.as hatte ich mich gestern der Vorlage:IMDb Titel und der Vorlage:IMDb Name angenommen, mit deren Hilfe die Links zur Internet Movie Database vereinheitlich werden können. Könntest Du uns zur Weiterführung unserer Arbeit folgende Listen bereitstellen:
- alle Artikel, denen die Kategorie:Filmtitel zugeordnet ist, in den aber nicht die Vorlage:IMDb Titel eingebaut ist.
- alle Artikel, denen entweder die Kategorie:Schauspieler (incl. Unterkategorien mit Ländern) oder die Kategorie:Entertainer, Kategorie:Fernsehschauspieler, Kategorie:Filmschauspieler, Kategorie:Hofschauspieler, Kategorie:Komiker, Kategorie:Pornodarsteller, Kategorie:Stummfilmschauspieler, Kategorie:Theaterschauspieler, Kategorie:Filmkomponist, Kategorie:Filmproduzent, Filmregisseur, Kategorie:Filmschaffende, Kategorie:Kameramann, Kategorie:Kinderstar, Kategorie:Oscarpreisträger, Kategorie:Synchronsprecher zugeordnet ist, in den aber nicht die Vorlage:IMDb Name eingebaut ist.
Ziel dieser Abfragen ist es, alle Artikel zu ermitteln, die bisher nicht auf die IMDb verweisen oder einen Link haben, ohne die standartisierte Vorlage. Bei Rückfragen gib einfach Bescheid. Herzlichen Dank -- Wohltäter 19:13, 20. Jan 2005 (CET)
- Das lässt sich einrichten. Im Dump vom 7. Januar finde ich
- 993 Filmtitel in der Kategorie, keiner davon hat die Vorlage,
- 2635 Einträge in den genannten Schauspieler-Kategorien und Unterkategorien, davon 475 mit und 2160 ohne die Vorlage.
- Damit eure bisherige Arbeit sichtbar wird, müsstet ihr bis zum nächsten Dump warten (der eigentlich schon überfällig ist). Auf welcher Seite soll ich euch die Listen (nach Vornamen sortiert) speichern? --SirJective 14:11, 21. Jan 2005 (CET)
Uuuh ... das klingt nach Arbeit. Aber OK. Uns würde auch schon der Stand 7. Januar reichen. Kurzer Hinweis noch: bis letzte Wocher gab es noch die reichlich unscharfe Kategorie: Vorlage:Imdb. Alle Artikel, die diese Vorlage nutzten sind aber schon auf die neuen Vorlagen umgestellt. Leg's einfach unter Benutzer:Triebtäter/IMDb ab. Herzlichen Dank für Deine Unterstützung. -- Wohltäter 18:31, 22. Jan 2005 (CET)
- Ist jetzt hochgeladen. Für Neugierige steht die verwendete Abfrage dabei. --SirJective 20:08, 25. Jan 2005 (CET)
- Prima, danke! ich hab aber grad gesehen, dass du zwar Kategorie:Filmtitel mit aufgenommen hast, aber ich denke wenn wir schon dabei sind, dann sollten wir uns auch gleich um Kategorie:Fernsehserie kümmern. kannst du die noch nachreichen bitte? Viele Grüße --BLueFiSH ✉! 21:50, 25. Jan 2005 (CET)
Syntaxprüfung Personendaten
Mir sind mittlerweile mehrere Syntaxprobleme bei den PD aufgefallen, z.T. sind mir die Fehler auch selbst unterlaufen (ich hoffe, ich habe sie alle gemerkt):
- Bei der Vorlage müssen alle Feldnamen vorhanden sein, sonst kommt es zu einem unschönen Einfügen des Feldnamens in doppelten geschweiften Klammern
- Es darf kein Ungleichgewicht bei eckigen Klammern vorhanden sein, sonst kommt die ganze Vorlage aus dem Takt (passiert leicht beim Copy&Paste)
Könntest Du dazu einen Check durchführen? (zu Punkt 2: ist im Prinzip ein Teil Deiner Liste über Klammerungleichgewichte, aber eine getrennte Liste wäre wg. des Termindrucks m.E. sinnvoll). -- srb ♋ 11:03, 25. Jan 2005 (CET)
- Für den ersten Punkt hab ich eine Liste Benutzer:SirJective/Personendaten erstellt. Dort werde ich auch die Ergebnisse für den zweiten Punkt hochladen. --SirJective 20:08, 25. Jan 2005 (CET)
Bilder mit PD oder GFDL, aber ohne Vorlage
Machst du mir die Abfrage sobald der neue Dump draußen ist bitte nochmal, aber filtere diesmal bitte die Bilder von Commons aus, sodass ich dann in der Liste (Benutzer:LeonWeber/Bilder mit GFDL oder PD, aber ohne Vorlage) nur noch Bilder hab, die auf der deutschen Wikipedia hochgeladen worden sind. Danke. Gruß, Leon ¿! 20:17, 31. Jan 2005 (CET)
Wikipedia:Selbstlinks
passend dazu wäre noch eine Abfrage für Artikel deren links auf einen redirect verweisen, welcher wieder zum aktuellen Artikel zurückführen.
Bsp: Obst (linkt auf Banane) --> Banane (redirected zurück auf Obst) --> Obst
Da ein link suggeriert das mehr info am ziel vorhanden sind, find ich solche konstrukte nervend. -- Ninjamask 01:46, 2. Feb 2005 (CET)
- Damit stimme ich voellig ueberein. Ich werde in Kuerze eine entsprechende Liste generieren: Benutzer:SirJective/Wartungslisten/Selbstlinks via Redirect --SirJective 15:03, 2. Feb 2005 (CET)
Alte Bildsyntax
Mir wäre eine Abfrage recht, die alte Bildsyntax erkennen könnte. Fürs erste würde mir reichen, wenn sie folgendes finden würde:
[[Bild:beliebig...]]<br />
-- Eckhart Wörner 22:04, 9. Feb 2005 (CET)
- Das laesst sich einrichten. Soweit ich das sehe, zeichnet sich die alte Syntax auch dadurch aus, dass sie nur einen "|" verwendet (solche Trenner innerhalb von Links der Bildbeschreibung waeren da natuerlich zu beachten). Ich werd aber erstmal nur nach Bild-Links im von dir angegebenen Format suchen, d.h. solche, die direkt von einem Zeilenwechsel gefolgt werden. Wohin moechtest du die Ergebnisse? --SirJective 12:14, 10. Feb 2005 (CET)
Benutzer:Eckhart Wörner/Alte Bildsyntax würde mir schon reichen, prinzipiell ist mir jeder Ort recht, solange du ihn auf meiner Benutzerseite verlinkst. ;-) -- Eckhart Wörner 13:43, 10. Feb 2005 (CET)
- Erstmal danke für die Abfrage.
- Falsche Bilder sind kaum vorhanden - mit einer besonders ekelhaften Ausnahme: So ziemlich alle Städte sind in der Liste vorhanden. Grund dafür ist das Wappen. Beispiel: Altenmünster
- Das Gute daran: Diese Wappen-Unterschrift ist leicht daran zu erkennen, dass in der Zeile danach "Hilfe zu Wappen" vorkommt. Ich weiß jetzt aber auf die Schnelle nicht, ob du das noch in der Abfrage berücksichtigen kannst. -- Eckhart Wörner 00:17, 12. Feb 2005 (CET)
Artikeldummies
Ende letzten Jahres war es mal in Mode, das Anlegen von Artikeln durch Artikeldummies zu verhindern, die mit dem Standardtext für nicht vorhandene Artikel gefüllt und anschließend gesperrt wurden (Bsp. Nja). Könntest Du mal eine Liste der betroffenen Lemmata machen, damit man ein Gefühl bekommt, wieviele Artikel betroffen sind? Als Suchkriterium dürfte ein "Diese Seite existiert noch nicht." in der ersten Textzeile ausreichen, oder alternativ die Worte "Seite", "existiert", "nicht" - für den Fall, dass jemand beim Erstellen einen Fehler gemacht hat ;-) Gruß -- srb ♋ 19:12, 15. Feb 2005 (CET)
- Ergebnis (Dump vom 9. Februar):
Diese Seite existiert noch nicht.
Weblink-Probleme (wurden mitgeliefert *g*).
- --SirJective 19:23, 23. Feb 2005 (CET)
Weblinks
Hallo SirJective, kannst Du eine Liste von Artikeln mit sehr vielen Weblinks erzeugen? Vielleicht die ersten 100 Artikel, welche die meisten Weblinks enthalten. Ein Hintergrund: Wikipedia:Ich brauche Hilfe#Hilfe - obskure Linkfarmen. -- tsor 10:53, 26. Feb 2005 (CET)
- Gibt es irgendwo in WP schon eine (eventuell veraltete) Liste von Weblink-reichen Artikeln? Dann kann ich direkt den Platz weiterverwenden :)
- Ich hab jetzt eine ganz einfache Suche gemacht, die nur zählt, wie oft "http" in einem Artikel vorkommt. Das dürfte einen groben Richtwert liefern.
- Ich finde im Dump vom 9. Februar etwa 500 Artikel, die mindestens 20 Weblinks haben, davon 112 mit mindestens 40 Weblinks. Gabs da nicht mal eine 5-Weblink-Regel? *g* --SirJective 13:00, 26. Feb 2005 (CET)
- Bitte veröffentliche mal die 500 Artikel mit mind. 20 Weblinks. Die sollten wir uns näher ansehen. ("Bielefeld" kannst Du direkt streichen, da habe ich bereits tabula rasa gemacht ;-) ). -- tsor 17:01, 26. Feb 2005 (CET)
- OK. Benutzer:SirJective/Wartungslisten/Artikel mit vielen Weblinks --SirJective 17:32, 26. Feb 2005 (CET)
Überschriften
Hallo SirJective, mich würde mal interessieren, bei welchen reinen Artikeln die Hierarchie der Überschriften "unlogisch" aufgebaut ist:
- Welche Artikel enthalten neben der Artikelüberschrift Überschriften 1. Ordnung?
- Welche Artikel enthalten Überschriften mindestens 3. Ordnung, aber keine solche 2. Ordnung?
- Welche Artikel enthalten Überschriften mindestens 4. Ordnung, die unmittelbar einer Überschrift 2. Ordnung folgen?
Hierüber hätte ich (bei Gelegenheit) gern eine oder mehrere alphabetisch sortierte Liste(n) der Artikelnamen, vielleicht auf einer Unterseite meiner Benutzerseite, falls es nicht zu viele sind. Bei Problemen mit regulären Ausdrücken könnte ich dir vielleicht helfen. Vielen Dank schonmal! --Wiegels 04:06, 8. Mär 2005 (CET)
- Das klingt nach einer interessanten Herausforderung.
- Das Hauptproblem wird darin bestehen, die Überschriften zu finden, denn man muss HTML-Kommentare, math-Tags, nowiki-Tags beachten. Ich werde versuchen, die Routine anzupassen, die ich benutze, um die Sichtbarkeit von Datumsangaben zu testen. Ein echter Parser wäre schön, aber ich hab noch von keinem Wiki-Parser in JAVA gehört.
- --SirJective 13:46, 8. Mär 2005 (CET)
- Mir reicht es, wenn du alle Zeilen betrachtest, die mit Gleichheitszeichen beginnen und mit Gleichheitszeichen, möglicherweise gefolgt von Leerzeichen, enden. Auch wenn diese innerhalb von HTML-Kommentaren stehen, sind sie nicht ganz uninteressant, und zwischen math- oder nowiki-Elementen dürften sie nur selten auftauchen. --Wiegels 16:14, 8. Mär 2005 (CET)
- Hier hab ich erstmal eine "Probeliste": Benutzer:SirJective/Wartungslisten/Überschriften. --SirJective 23:43, 8. Mär 2005 (CET)
- Prima, das ist im Prinzip genau das, was mich interessiert. Eigentlich müsstest du die Überschriften nicht mit aufzählen lassen oder höchstens die markierte(n). Es scheint allerdings reichlich viele Treffer zu geben. Vielleicht könntest du mir in einem ersten Schritt nur die Artikel mit unausgeglichenen oder h1-Überschrift liefern. Vielen Dank --Wiegels 02:14, 9. Mär 2005 (CET)
- Das Problem der vielen Treffer wird vor allem auch daran liegen, dass in vielen Fällen die 1. und 2. Ebene bewußt ausgelassen wird, da sie (zumindest im Monobook-Skin) mit einer Trennlinie vor dem Absatz begleitet ist - zumindest vermeide ich diese Ebene bei kurzen Artikeln. Vielleicht solltest Du - zumindest erstmal - diese Varianten (keine Ebene mit = bzw. ==) nicht auflisten. -- srb ♋ 02:34, 9. Mär 2005 (CET)
- "Keine h1-Überschrift" ist ja genau, was wir in den Artikeln wollen: Die höchste Überschrift innerhalb des Artikels sollte == (h2) sein. Da du aber auf kosmetische Mängel der h2-Überschrift in kurzen Artikeln aufmerksam machst, lass ich Artikel erstmal raus, deren einziges Problem ist, dass h3 oder h4 die höchste Überschrift ist.
- Ich werde also eine Liste hochladen, die nur Artikel mit Sprüngen (z.B. ==== direkt nach ==), unausgeglichenen Überschriften ("===Eigenschaften==") und h1-Überschriften ("=Leben=") enthält.
- Ich werd zusehen, dass ich nur die interessierenden Überschriften angebe. --SirJective 21:14, 9. Mär 2005 (CET)
- Hab die Liste jetzt aktualisiert. Die Durchsuchung der (vorher ermittelten) 120.000 Artikel mit Überschriften hat 25 min gedauert. :) --SirJective 22:09, 9. Mär 2005 (CET)
- Super, klasse Service! Damit werde ich erstmal beschäftigt sein, andere vielleicht auch. --Wiegels 22:28, 9. Mär 2005 (CET)
- Hallo SirJective, die Liste habe ich weitgehend abgearbeitet. Nur in Ausnahmefällen habe ich die Gliederung beibehalten, dann nämlich, wenn ein Artikel nur eine einzige h1-Überschrift besitzt, die ganz vorne steht und eine Alternative zum vorhandenen Lemma darstellt. Könntest du die Listen ("Sprung" und "h1") nach dem nächsten Dump mal erneuern? Frohe Ostern --Wiegels 13:17, 27. Mär 2005 (CEST)
Personendaten/war und neue
Bitte 2 Suchen für mich ausführen (natürlich nur wenn du Zeit dafür hast).
- Benutzer:FEXX/war
- Suche nach dem Tag (für die GNU-FDL) in Bildbeschreibungen
Danke :) fexx 22:52, 22. Mär 2005 (CET)
- Zeit hab ich schon, nur keinen neuen Dump. Die zweite Liste kann ich dir anlegen: Benutzer:FEXX/GNU-FDL-Bilder. --SirJective 15:07, 23. Mär 2005 (CET)
HTML-Elemente
Hallo SirJective, mir begegnen immer wieder Artikel, die HTML-Elemente enthalten, z. B. <i>, <p>, <ul>, <ol>, <li>, <table>, <tr>, <th>, <td> zzgl. Attributen, die sich durch wiki-Syntax ersetzen lassen. In vielen Fällen halte ich auch die Verwendung von <br/> und dessen Abarten <br>, <br />, <br>...</br> (schon gesehen!) für unnötig. Gibt es schon eine Liste, die solche Vorkommen aufzählt? --Wiegels 13:34, 27. Mär 2005 (CEST)
- Ich weiß von keiner solchen Liste. Tabellen wurden (werden?) von Zwobot umgewandelt, alle anderen Tags werden meines Wissens nicht bot-o-matisch verändert (höchstens halbautomatisch von Edit-Tools). Ich kann dir solche Listen geben. Wohin hättste sie gern? --SirJective 13:43, 27. Mär 2005 (CEST)
Nicht kategorisierte Seiten
Hallo SirJective, Benutzer:Bierdimpfl hat eine Liste mit nicht kategoriesierten Seiten (Benutzer:Bierdimpfl/Nicht kategorisierte Seiten), allerdings scheint er sich zur Zeit eine Pause zu gönnen (Stand der Seite ist noch etwa Sylvester, letzter Benutzeredit Anfang Februar), aber bei dem Klima in den letzten Monaten kann ich's ihm nicht mal verübeln. Könntest Du beim nächsten Dump diese Auflistung mal aktualisieren? Dabei würde ich vorschlagen, dass Du die selben Kriterien wie bei den Personen anwendest (Wartungskats ignorieren). Danke im Voraus, -- srb ♋ 06:02, 3. Apr 2005 (CEST)
Nicht verlinkte Redirs
Hallo SirJective, könntest du eine Liste aller Redirects erstellen, auf die von keinen anderen Artikeln verlinkt wird? Dann könnte man systematisch prüfen, welche Redirects möglicherweise noch benötigt werden oder inzwischen veraltet sind und nicht mehr benötigt werden. Mwka 22:59, 5. Apr 2005 (CEST)
- Was möchtest Du damit abarbeiten? Redirs sollten eigentlich grundsätzlich nicht verlinkt sein. -- srb ♋ 23:24, 5. Apr 2005 (CEST)
- Das könnte ich tun. Ich hab aber ein paar Rückfragen:
- 1. Wann nennst du einen Redirect veraltet?
- 2. Woran kann ich erkennen, ob ein Redirect als Ziel eines Interwiki-Links von irgendeiner der 100 anderen Wikipedias genutzt wird?
- 3. Woran kann ich erkennen, ob ein Redirect von irgendeiner anderen Webseite als Linkziel genutzt wird? Eine mögliche externe Verlinkung sehe ich insbesondere bei "frischen" Verschiebe-Redirects von bereits länger existierenden Artikeln als Grund gegen eine Löschung an.Siehe dazu auch mein kurzes Gespräch mit Gunther: hier.
- Gibt es ein Projekt im Internet, das mir sagen kann, von wo aus eine Seite verlinkt wird, quasi eine Netz-weite "Links auf diese Seite"-Funktion? (Mir ist klar, dass das nur mit indizierbare Seiten funktionieren würde; google z.B. sollte die nötigen Informationen eigentlich besitzen, oder?)
- --SirJective 00:40, 6. Apr 2005 (CEST)
Doppelte Redirs
Hast Du eine doppelte redirs herauszufiltern, d.h. redirs die auf einen weiteren redir verweisen? Mir ist grade auf den Löschdiskussionen eine Verschiebeaktion aufgefallen, bei der 11 (!) bestehende redirs (davon die meisten auch als Verweisziel) vergessen worden waren. Gruß -- srb ♋ 16:39, 7. Apr 2005 (CEST)
Wikipedia-Zeitgeist
Hi, was hälst Du von einer regelmäßig aktualisierten Liste mit, den am häufigsten bearbeiteten Artikel der letzten Woche (vielleicht nur die aus dem Artikel-Namensraum). So würde man sehen, wo besonders aktiv gearbeitet wird, wo Edit-Wars herrschen. Langfristig natürlich, ob sich da Verschiebungen in Thematik gibt. Das wäre dann sowas wie der Google Zeitgeist. --Jorges (?) 16:58, 26. Apr 2005 (CEST)
- So eine Liste würde wohl nicht nur mich interessieren. :)
- Ich denke direkt an die Realisierbarkeit einer solchen Liste...
- Eine Möglichkeit wäre, möglichst alle Recent Changes zu sammeln und die Bearbeitungszeitpunkte aller Artikel festzuhalten. Die erfordert eine ständige Überwachung der RC, hätte aber den Vorteil, jederzeit eine aktuelle Liste liefern zu können.
- Eine weitere Möglichkeit wäre, die Datenbank auszuwerten und die Bearbeitungen auszuzählen. Das erfordert jedoch einen Zugriff auf eine möglichst aktuelle Version der Datenbank. Mit Dumps wäre das nur sporadisch hinzukriegen (ganz unabhängig davon, dass ich mir die 13GB old-Tabelle nicht laden würde).
- Soweit ich weiß, sollte APPER die technischen Möglichkeiten haben, die erste Möglichkeit zu realisieren. --SirJective 17:18, 26. Apr 2005 (CEST)
- Hmm... dort wo der Zugriff erfolgt (im RC-IRC-Channel) erfasse ich nur anonyme Änderungen und die Artikeländerungen und übertrage diese an einen anderen Server. Mehr möglichkeiten habe ich leider derzeit nicht. Aber mittelfristig sitze ich sowieso an einer relativ komplexen Sache, die auch sowas dann ermöglichen wird ;). Solange... mal sehen, ob ich irgendwas zwischendurch machen kann... denke aber eher nicht... --APPER\☺☹ 01:04, 27. Apr 2005 (CEST)
UTF8-Missbrauch
Hallochen, wiedermal eine Aufräumfrage: mittlerweile zieht der UTF8-Missbrauch, der auf der Anzeigegleichheit von Zeichen aus verschiedenen UTF8-Zeichensätzen beruht, weitere Kreise - nicht nur Carolus Magnus ist betroffen, sondern heute ist es mir auch bei Karin Stoiber aufgefallen. Da von dem Problem potenziell alle Lemmata betroffen sein können, wäre eine entsprechende "Wartungsabfrage" m.E. sehr wichtig, da mittlerweile nicht mehr davon ausgegangen werden kann, dass alle "falschen" Artikel erkannt werden. Entsprechende Zeichen könnte man evtl. aus dem Löschlogbuch extrahieren. -- srb ♋ 00:51, 1. Mai 2005 (CEST)
- Es sollte mir möglich sein, mein JAVA-Programm so zu trimmen, dass es nach ähnlichen Titeln sucht, wobei die Art der Ähnlichkeit natürlich definiert sein muss.
- Hilfreich wäre eine Liste von Gruppen ähnlich aussehender Zeichen, könntest du mir da einen Start geben?
- Ohne die könnte ich z.B. erstmal darauf schauen, ob ich Titel finde, die sich nur in einem Zeichen unterscheiden, wobei eines der verschiedenen Zeichen aus dem Latin-Alphabet stammt und das andere ein hohes Unicode-Zeichen (vermutlich sollte es größer als 00FF sein) ist. "Erlaubte" Fälle, wie "e,é,è,ê" etc. muss ich natürlich rausfiltern, falls sie auftreten. --SirJective 14:31, 1. Mai 2005 (CEST)
- Vielleicht hilft der Begriff "unsichtbares Sonderzeichen" weiter? Ein Titel mit unsichtbarem Sonderzeichen ist höchst verdächtig. Die wollen wir sehen. -- tsor 16:58, 1. Mai 2005 (CEST)
- Nach Lektüre von Unicode verstehe ich, was du meinst. Kannst du mir eine Liste verdächtige Zeichen beschaffen (Z.B. als utf-8-kodierte Mail)? --SirJective 21:04, 1. Mai 2005 (CEST)
- Danke für die Mail. Ich habe die letzten Löschlogbücher (2000 Einträge) halbautomatisch ausgewertet, und hab genau ein Zeichen mehr gefunden als du (ein "I"-Ersatz). Ich hab den Dump (21.04.05) nach diesen Zeichen durchsucht, und hab auch einige Artikel gefunden. Die unerwünschten sind aber bereits gelöscht.
- Ich werde den Dump nach weiteren Sonderzeichen durchsuchen, vielleicht stoß' ich noch auf was interessantes. --SirJective 21:04, 1. Mai 2005 (CEST)
- Im Dump vom 21.4. dürften wohl nur die Carolus-Varianten drin gewesen sein, die Ausweitung auf andere Artikel scheint erst gestern begonnen zu haben. Vielleicht könntest Du auch die Neuen Artikel nach dem UTF8-Müll durchsuchen (wie Du es bei den Dopplungen schon getan hattest) - auf diese Weise hätten wir dann schneller einen Hinweis auf weitere Lemmata, die von den Vandalen verwendet werden - neben den bisher erkannten Carolus und Stoiber. Gruß -- srb ♋ 21:58, 1. Mai 2005 (CEST)
- Ich habe angefangen, die im Dump verwendeten hohen Unicode-Zeichen einzusammeln. Dabei sind mir einige ähnliche Zeichen aufgefallen (es gibt z.B. die Zeichen "Đ, Ð, Ɖ"); ich müsste aber noch systematisch die betroffenen Zeichensatz-Regionen abgrasen, um weitere nicht im Dump aufgetretene Ähnlichkeiten zu finden.
- Die Idee, die neuen Artikel zu scannen, ist super; ich werde in den nächsten Tagen die passenden Skripte zusammenstöpseln. --SirJective 23:50, 1. Mai 2005 (CEST)