Benutzer:BWBot
Du bist bestimmt hier gelandet, weil du in einem Artikel eine von BWBot vorgenommene Änderung gefunden hast. BWBot ist ein Bot, d.h. ein Computerprogramm, welches halbautomatisch Wikipedia-Seiten bearbeitet. Die Gründe für solche Änderungen sind im Abschnitt Korrekturen aufgelistet und mit der Wikipedia-Gemeinschaft abgestimmt.
Wenn der Bot einen Fehler macht
Wenn du auf Probleme stößt, die der Bot verursacht hat, dann melde das bitte Bananeweizen, damit der Bot verbessert werden kann. Es reicht nicht, die alte Version wiederherzustellen, da der Bot die Änderung beim nächsten Durchlauf wiederholen wird. Gerade bei Zitaten und Fremdworten reicht es übrigens, wenn du korrekte Zitatformatierung und Fremdwortformatierung verwendest, damit der Bot sie nicht nochmal anfaßt. Sollte der Bot aus unerfindlichen Gründen systematisch eine Seite nach der anderen verhunzen, dann melde das einem Admin, damit der Account des Bots gesperrt werden kann, um das Ändern weiterer Seiten zu verhindern.
Einschränkungen bei den Korrekturen
Manuelle Bestätigung aller Änderungen
Da mir (Bananeweizen) ständig irgendwelche Leute vorwerfen, so ein Bot könnte gar nicht in jedem Fall erkennen, was er ändern darf und was nicht, hier der ausdrückliche Hinweis: Der Bot erstellt lediglich Listen von Vorschlägen, die ich persönlich bestätige oder verwerfe. Und die von mir verworfenen Änderungen werden im Bot für den entsprechenden Artikel für alle Zeiten als nicht anwendbar gespeichert.
Keine Rechtschreibreform
Der Bot forciert hier auch nicht die neue Rechtschreibung, obwohl die Mehrheit der Benutzer laut einer Umfrage vom August 2004 die neue Rechtschreibung bevorzugt. Er ändert lediglich Schreibweisen, die sowohl in alter als auch neuer Rechtschreibung verkehrt sind. Beispiel: grosse statt große ist außer in Artikeln mit Schweizbezug nach alter und neuer Rechtschreibung verkehrt, da auch in neuer Schreibung nicht einfach alle ß ersetzt werden.
Geschützte Bereiche in Artikeln
Der Bot kennt einige programmatische Einschränkungen, damit er nicht wild durch die Gegend editiert. Wenn du meinst, daß der Bot noch andere außer den im Folgenden genannten Stellen auslassen muß, dann laß Bananeweizen eine kurze Info dazu zukommen.
Der Bot ändert grundsätzlich keine Seiten
- die Benutzer- oder Diskussionsseiten sind (er ist nur auf dem Hauptnamensraum der deutschen Wikipedia aktiv)
- die in irgendeiner Schreibweise das Wort Schweiz enthalten (nur bei Änderungen, bei denen ein ß ergänzt oder ersetzt werden soll, siehe: Wikipedia:Rechtschreibung)
Außerdem ändert er keine Textpassagen (innerhalb von Seiten), die
- innerhalb der Tags <pre>, <math>, <code> oder <sic> stehen (letzteres ist kein offizielles Tag, wird aber teilweise fälschlich statt eines Kommentars verwendet)
- in HTML-Kommentaren (<!-- -->) stehen,
- in denen selbst das Wort Sic enthalten ist, oder bei denen das Wort Sic in einem Umkreis von 100 Zeichen um die Textpassage herum steht
- Teil von Weblinks oder WikiLinks sind (gilt auch für den Text, der direkt an der schließenden Klammer eines Wikilinks hängt); eine Ausnahme hiervon wird beim Korrigieren von HTML-Entitäten und Begriffsklärungen gemacht.
- in einer Zeile mit Fixed-Font stehen (d.h. das erste Zeichen in dieser Zeile ist ein Leerzeichen).
- Vorlagen enthalten
- innerhalb von doppelten Anführungszeichen (mit den Varianten „...“ ,«...», »...« und "...") oder in Wiki-Kursivformatierung (zwei aufeinanderfolgende einfache Anführungszeichen) stehen. So sollten Fremdworte bzw. Zitate angegeben sein.
- bei denen der Anteil der Buchstaben innerhalb eines Bereiches von 30 Zeichen vor Beginn der Textpassage bis 30 Zeichen nach Ende der Textpassage weniger als 40 Prozent beträgt (damit können einige nicht mit <math> gekennzeichnete Formeln ausgeschlossen werden)
Aufgrund dieser vielen Sonderregeln kann es übrigens auch passieren, daß der Bot in einem Artikel an 5 Stellen einen Fehler korrigiert und das 6. Auftreten des (eventuell sogar gleichen) Fehlers leider nicht korrigiert. Hier gilt der Grundsatz: Lieber zuwenig korrigiert als zuviel.
Primäre Korrekturen
Die im folgenden aufgelisteten Probleme sucht der Bot aktiv im jeweils aktuellsten Dump der Datenbank.
Tippfehler, Schreibweisen
Der Bot korrigiert Tippfehler, die er eindeutig identifizieren kann.
- Dazu gehören solche Buchstabendreher wie ect., was eigentlich etc. heißen soll.
- Nahezu sämtliche Einträge aus den Tippfehlerlisten werden gesucht.
- Worte mit sich wiederholenden Buchstabengruppen werden geprüft, da man diese Gruppen häufig zu oft schreibt (Beispiel: gegegeben statt gegeben).
- Die genaue Liste von Änderungen findet ihr unter Benutzer:BWBot/Tippfehler.
ISBN
Relativ häufig kommt es vor, daß eine ISBN in der Form ISBN: 3-540-42849-6 (mit Doppelpunkt) oder ISBN 3 540 42849 6 (mit Leerzeichen) geschrieben wird. Beide Formen kann der Parser der Wikipedia nicht erkennen, weshalb der BWBot überflüssige Satzzeichen innerhalb der ISBN-Angabe entfernt und Leerzeichen in der Zahlenreihe durch Querstriche ersetzt. Es werden nur ISBN mit 10 oder 13 Ziffern korrigiert.
HTML-Entitäten
Der Bot ersetzt benannte HTML-Zeichen aus dem Zeichensatz ISO 8859-1 durch das Schriftzeichen selbst. Beispiel: Aus ä wird ä. Die genaue Liste aller Ersetzungen findet ihr unter Benutzer:BWBot/HTML. Es werden nicht alle benannten HTML-Zeichen ersetzt, sondern zuerst einmal nur diejenigen, welche mit einer deutschen Tastatur geschrieben werden können, sowie auch HTML-Zeichen für französische Anführungszeichen. Grund für die Einschränkung ist die bei manchen Browsern fehlerhafte Unterstützung für die restlichen Sonderzeichen, was beim nächsten Editieren zu Problemen führen könnte.
Der Hintergrund für die Ersetzung ist folgender: Die Wikipedia wird mit WikiSyntax beschrieben. HTML ist nur an den Stellen notwendig, an denen ein bestimmtes Layout erzwungen werden muß. Leider war die MediaWiki-Software lange Zeit nicht in der Lage, Sonderzeichen anders als mit benannten HTML-Zeichen zu speichern. Seit der Umstellung auf UTF-8 ist das aber nicht mehr notwendig und die Leserlichkeit wird durch Verwendung normaler Sonderzeichen stark verbessert (französisch statt französisch).
Siehe auch: Wikipedia:Sonderzeichen, Wikipedia Diskussion:Sonderzeichen, Wikipedia:Namenskonventionen
Begriffsklärung
Bei Worten mit mehreren Bedeutungen (Beispiel: Bank als Bank (Möbel) oder Kreditinstitut) werden Begriffsklärungsseiten verwendet, die diese mehrfachen Bedeutungen auflisten. Prinzipiell sollte man in Artikeln immer auf die genaue Bedeutung verlinken, d.h. in einem Wirtschaftsbeitrag sollte man [[Kreditinstitut|Bank]]
schreiben, statt nur auf [[Bank]]
zu linken, damit ein Leser mit weniger Klicks zum gewünschten Ziel kommt. Der BWBot arbeitet die Liste der Begriffsklärungsseiten mit den meisten darauf verweisenden Links ab und schlägt die meistbenutzte Bedeutung des Wortes als Ersetzung vor, welche ich als Operator dann bestätige oder verwerfe.
Wortdopplungen
Beim Editieren von Artikeln passiert es des öfteren, daß man versehentlich ein Wort doppelt schreibt. BWBot entfernt solche doppelten Worte.
Typografie, Plenken
- Wenn zwischen zwei Links kein Leerzeichen steht, wird dieses eingefügt, sofern der Abschnitt nicht in einem mathematischen Kontext steht und es sich nicht um ein zusammengesetztes Wort handelt. Prinzipiell sollte man zusammengesetzte Worte mit mehrfachen Links aber vermeiden.
- Bei plenkenden Texte werden die falsch gesetzten Leerzeichen entfernt, um die Lesbarkeit und das Schriftbild der Artikel zu verbessern.
Sekundäre Korrekturen
Alle im folgenden Abschnitt aufgeführten Änderungen korrigieren keine groben Fehler, sondern machen den Seitenquelltext leichter lesbar und editierbar. Deswegen führt BWBot diese Änderungen nur für solche Seiten aus, bei denen er einen der obigen primären Fehler festgestellt hat. Dies dient der Vermeidung unnötiger Artikelversionen.
Einfachere Wikilinks
Wenn jemand einen WikiLink mit einem anderen Wort darstellen will als der Name der Zielseite ist, kann er das in der Form [[Italien|Italiener]]
tun, womit der Link als Italiener dargestellt wird, aber auf Italien verweist. Wenn der anzuzeigende Begriff den Artikelnamen enthält, kann man das noch einfacher als [[Italien]]er
schreiben.
HTML -> WikiSyntax
Wenn in einem Text HTML-Tags auftreten, die sich auch mit Wikisyntax beschreiben lassen (zum Beispiel <b>fett</b>
statt '''fett'''
), dann ersetzt der Bot die HTML-Tags durch ihr Äquivalent in Wiki-Syntax.
HTML -> XHTML
Einfache HTML-Tags werden XHTML-konform umgeschrieben, zum Beispiel wird <br>
durch <br />
ersetzt. Diese Ersetzung wird zum Teil auch von der MediaWiki-Software beim Anzeigen eines Artikels "on the fly" vorgenommen, deshalb ist der Effekt nur im Artikelquelltext zu erkennen, aber nicht im HTML-Quelltext der angezeigten Seite.
Geplante Korrekturen
Für die folgenden Probleme existieren bereits experimentelle Implementierungen, die ich aber noch ausführlich testen muß:
Weitere mögliche Einsatzgebiete des Bots wären:
- Einfügen des Templates für unbekannte Lizenzen bei Bildbeschreibungen, die keine Lizenzangabe enthalten (Idee von Stern)
Die Technik hinter dem Bot
BWBot ist ein Hybrid-Bot. Zum Ändern von Wikiseiten benutzt er das PyWikipedia-Framework von Rob Hooft, die zu korrigierenden Texte hingegen werden in einer lokal installierten Kopie der Wikipedia-Datenbank von einem von mir für diesen Zweck entwickelten Eclipse-Plugin gesucht. Diese Vorgehensweise bringt zwei Vorteile gegenüber der alleinigen Verwendung von PyWikipedia:
- BWBot hat eine graphische Oberfläche, welche das Erfassen und Beurteilen von Änderungen durch den Operator wesentlich erleichtert.
- Sämtliche vom Operator bestätigten Änderungen werden zwischengespeichert und erst später im Stapelbetrieb vom Bot ausgeführt. So kommt es, daß man in einer halben Stunde mehrere hundert Änderungen bestätigen kann, die der Bot danach dann über einen Zeitraum von einigen Stunden verteilt auf der Wikipedia ausführt (da der Bot sonst zuviel Last auf dem Server verursachen könnte). Hierbei berücksichtigt der Bot natürlich auch Änderungen, die in der Zwischenzeit von anderen an den Artikeln vorgenommen wurden.