Benutzer:Reinhard Kraasch/Gemeinden Status
Hier fasse ich den Status meiner Arbeiten und Auswertungen an den Gemeindeartikeln und den aktuellen Stand von RKBot zusammen.
Was geschah bisher
Auswertungen auf Basis einer lokalen Mediawiki-Installation
Ich habe aus dem letzten Datenbank-Dump die Informationen zu den Gemeindeartikeln zusammengetragen - im Realbestand wurde noch nichts geändert (bzw. höchstens von Hand, wenn mir etwas auffiel).
- Liste der Städte in Deutschland wurde mit dem Bestand abgeglichen, Inkonsistenzen in der Schreibweise von Hand bereinigt.
- Ich habe einen ersten Parser für die Infoboxen gebaut und ausgewertet, was in den Infoboxen so drinsteht. Erste Ergebnisse finden sich hier
- Als Spezialfall hab ich mal die Gemeindeschlüssel auf Plausibilität geprüft:
- Eine Liste unplausibler Gemeindeschlüssel --Reinhard 00:44, 8. Sep 2006 (CEST)
- Der Datenbank-Dump ist vom 3.8.2006, leider ist der letzte Dump kaputtgegangen, die Daten sind also ca. einen Monat alt, was einige Diskrepanzen erklärt. Der endgültige Botlauf erfolgt natürlich auf dem real ausgelesenen Bestand und nicht mittels der aus dem Dump gewonnenen Daten. --Reinhard 17:12, 8. Sep 2006 (CEST)
- Testdaten erstellt (s.u.)
Weitere Fehlerlisten
Noch zu Bearbeiten
- Fehlende Landkreise --Reinhard 20:46, 9. Sep 2006 (CEST)
- Die Liste ist soweit abgearbeitet, außer die Landkreise Donnersbergkreis, Südliche Weinstraße in RLP. Hier sind größere Bearbeitungen notwendig die teilweise in Arbeit sind. --Redline is courtage Schoki 17:54, 15. Sep 2006 (CEST)
- Fehlende Landkreise --Reinhard 20:46, 9. Sep 2006 (CEST)
- Unplausible Ortskoordinaten --Reinhard 21:08, 11. Sep 2006 (CEST)
- Ich habe mich mal der unplausiblen Koordinaten angenommen. Orte über 100km Differenz sind durch, näheres siehe auf der Seite. --Tobi 15:34, 15. Sep 2006 (CEST)
- Unplausible Ortskoordinaten --Reinhard 21:08, 11. Sep 2006 (CEST)
- Gemeinden ohne "Formatvorlage Stadt" --Reinhard 14:17, 14. Sep 2006 (CEST)
- Gemeinden ohne Angabe des Bundeslands --Reinhard 14:17, 14. Sep 2006 (CEST)
Abgearbeitet
Unplausible Regierungsbezirke --Reinhard 21:52, 9. Sep 2006 (CEST)- Redline is courtage Schoki 18:33, 10. Sep 2006 (CEST)
Unplausible Postleitzahlen --Reinhard 21:56, 10. Sep 2006 (CEST)- Redline is courtage Schoki 17:43, 11. Sep 2006 (CEST)
Gemeinden ohne Kategorie --Reinhard 03:29, 15. Sep 2006 (CEST)- Tobi 15:34, 15. Sep 2006 (CEST)
- Die Liste ist abgearbeitet und die Fehler korrigiert, nur hier: Langenlonsheim weiß ich nicht, was ich machen soll, kann da wer helfen?
Tests
- Testdaten angelegt, jeweils 2 Orte aus jedem Bundesland (ausgenommen die Stadtstaaten): --Reinhard 20:06, 9. Sep 2006 (CEST)
Die Ausgangsartikel wurden kopiert, um einen stabilen Zustand zum Testen zu haben und um Bearbeitungskonflikte zu vermeiden. --Reinhard 22:21, 9. Sep 2006 (CEST)
Erstellen des Bots
So, der Bot ist jetzt soweit fertig und wurde ersten Tests unterzogen:
Testablauf
- Rückstandsloses Entfernen der Tabelle -- erledigt
- Einbau der Townbox-Vorlage mit einfachen Parametern (Bundesland, Landkreis...) -- erledigt
- Test der komplexeren Parameter (Gemeindeart, PLZ, Höhe...) -- erledigt
- Ergebnisse im Detail geprüft und eingearbeitet -- erledigt
- Interne Umsetzung auf dem Gesamtbestand mit Auswertung der Statistiken
Derzeitige Arbeitsweise des Algorithmus
- Die Parameter der Formatvorlage werden analysiert und so gut es geht umgesetzt
- Dabei werden Zusatzinformationen wie "Stand der Einwohnerzahl" "PLZ alt" und "Partei des Bürgermeisters aus der rechten Seite der Tabelle extrahiert und in ein einheitliches Format gebracht. Die Datumsangabe "Stand der Einwohnerzahl" wird entsprechend der Vorlage formatiert.
- Die Koordinaten werden entsprechend der verschiedenen Eingabevarianten zerlegt und in ein einheitliches Format gebracht
- Numerische Daten werden extrahiert und von Tausendertrennzeichen bereinigt, Dezimalkommata werden in Dezimalpunkte umgesetzt, von-bis-Angaben werden vereinheitlicht
- Als Nebenprodukt entsteht eine Fehlerliste von nicht umsetzbaren Parametern (bzw. resultierend aus diversen "Trockenläufen" des Algorithmus die obigen Fehlerlisten, die schon im Vorwege in die Ortsartikel eingepflegt werden können, was dazu führt, dass die reale Fehlerliste kürzer wird).
- Die Karte "Lage von xyz in Deutschland" wird herausgenommen
- Spezialfälle von mehreren Bildern in der Formatvorlage werden wie folgt behandelt:
- Die Bilder werden neben die Formatvorlage gestellt
- Auf die Diskussionsseite wird ein Hinweis geschrieben
- (Das klappt aber nicht, wenn die Karte anders als "xyz in Deutschland" heisst - Beispiel: Eßleben-Teutleben).
- Bezeichnung der Adresse: "Adresse der/des xxx": "Gemeindeverwaltung", "Samtgemeinde" ...
- Die Bezeichnung wird derzeit aus der Art der Gemeinde substituiert - was aber unzulänglich ist, z.B. bei einer Amtsangehörigen Gemeinde steht unter "Art=Gemeinde", bei "Adresse" sollte aber stehen: "Adresse des Amts"
- Hinweis auf der Diskussionsseite:
- Hinweis auf die erfolgte Umstellung (ggf. mit Hinweis auf die Diskussionsseite der Vorlage zur Erklärung derselben)
- Hinweis, welche Parameter nicht übernommen werden konnten
- Bilder, die aus der Formatvorlage herausgelöst wurden.
- Ggf: Bei welchen Parametern Diskrepanzen festgestellt wurden (besser wohl: Fehlerlisten erstellen - wie gehabt)
- M.E. sollte die Diskussionsseite nur im Fehlerfall gefüllt werden, ansonsten sollte der Hinweis in der Zusammenfassungszeile reichen.
Noch offene Fragen
- Soll die Formatvorlage Stadt in allen "Ortsartikeln" ersetzt werden oder nur in den Artikeln von selbstständigen Gemeinden? (Im Fall von Stadtteilen usw. stimmen die Ergebnisse nicht ganz - siehe Mainz-Lerchenberg). Generell ausgenommen werden sollten m.E. die Stadtstaaten und vielleicht auch noch weitere zu nennende Großstädte - da ist die Tabelle derart überfrachtet, dass es ohne Handarbeit kaum geht.
- Soll die E-Mail-Adresse generell weggelöscht werden oder nur in der Vorlage nicht dargestellt werden?
- In relativ vielen Orten findet sich der Parameter "Ausländeranteil". Diesen könnte man (als Blindparameter wie "NUTS" oder "LOCODE") in die Vorlage übernehmen - ob man die Zeile darstellt oder nicht, kann man dann immer noch diskutieren.
- Generelle Frage: Sollen ergänzbare Informationen (PLZ, Gemeindekennziffer usw.) nachgetragen werden? Meine Datenbestände sind allerdings nicht die allerneuesten, aber in 95 % der Fälle dürften die Ergebnisse stimmen. Was ist besser - fehlende oder mit geringer Wahrscheinlichkein falsche Informationen?
- Man kann solche Informationen auch teilweise errechnen bzw. natürlich direkt an der Quelle abgreifen:
- Regierungsbezirk/Landkreis können anhand der Gemeindekennziffer ermittelt werden
- Fehlende Gemeindekennziffern/Regierungsbezirke/Landkreise usw. können automatisch aus [1] ausgelesen und nachgetragen werden (muss natürlich nicht im Rahmen dieser Aktion erfolgen...)
- Was soll mit den ehemaligen Regierungsbezirken geschehen? Generell löschen?
- Was soll mit unplausiblen Informationen (Höhe, Fläche ...) geschehen:
- Fehlerliste erzeugen (wie ja schon geschehen)
- Kommentarlos ersetzen (sofern andere bzw. genauere Informationen im Bestand vorliegen)
- Zur manuellen Nachbearbeitung auf die Diskussionsseite des Artikels stellen
- Ggf.: Kombination aus allen drei Vorgehensweisen?
Was man noch so alles prüfen könnte
- Welche Fehlerlisten / Analysen / Plausibilitätsprüfungen werden noch gewünscht bzw. sind erforderlich?
- Vergleich der Beschreibung der Gemeinde im Artikel (xyz ist eine xxx) mit dem tatsächlichen Status (Stadt/Gemeinde...)
- Plausibilität der Geo-Daten (Höhe, Koordinaten)
- Erreichbarkeit der angegebenen Webseite
- Doppelte Georeferenzierung der Artikel (über die Infobox und über die Vorlage:Koordinate Artikel)
- Fehlende Georeferenzierung
- KFZ-Kennzeichen gegen Kreis
Sonstiges
- Vielleicht mag ja Benutzer:Arcy sein GisWiki-Script so anpassen, dass es optional auch für die neue Infobox passende Werte erzeugt
Einladung zur Diskussion
Ich bitte um Überprüfung der Testlemmata und Hinweise und Kommentare auf der Diskussionsseite hier. Weiterhin bitte ich um Nennung weiterer Testkandidaten (vermutlich kennt jeder ein paar Trauerfälle, die man genauer betrachten sollte). --Reinhard 20:07, 12. Sep 2006 (CEST)
Amtsverwaltung
Mir fiel beim ersten Überblick auf, dass in Mecklenburg-Vorpommern 809 von 850 Gemeinden von einem Amt aus verwaltet werden - daher müsste es "Adresse der Amtsverwaltung" heißen, so steht es auch in den betreffenden 809 Gemeindeartikeln. Im Bot-Fall wird daraus eine Gemeindeverwaltung - für die betreffenden Gemeinden sicher ein Wunschtraum - das war einmal. Trifft übrigens auch für Schleswig-Holstein und Brandenburg zu. Habe keine Zeit mehr heute - morgen mehr. Rauenstein 21:33, 12. Sep 2006 (CEST)
- Kann man natürlich automatisch einsetzen - wenn es denn irgendwo eine Liste der Zugehörigkeiten gibt. Nach der Analyse der Artikel meine ich, dass man sich da besser nicht auf den Artikel selbst stützt - da steht (speziell bei kleineren Gemeinden) alles mögliche drin und der Bearbeitungsstand ist häufig uralt. --Reinhard 21:55, 12. Sep 2006 (CEST)
- Bzw., präziser: In der Tabelle steht zwar in aller Regel die Adresse der Amtsverwaltung (und der Text "Adresse der Amtsverwaltung") drin - aber meist eben nicht explizit das Amt - das müsste man also entweder automatisch nachtragen oder die Vorlage müsste so flexibel sein, dass man "Adresse der/des xyz" irgendwoher substituieren kann - auch wenn die Angabe "Amt"/"Gemeindeverband"/"Samtgemeinde" usw. fehlt. --Reinhard 22:34, 13. Sep 2006 (CEST)
Fragen an den Bot
Kann der Bot auch das Datum vereinheitlichen? Auf der Infobox Diskussionsseite habe ich es schon angesprochen, ich fände ein einheitliches TT.MM.JJJJ Datum schön, wenn dort ein Konsens gefunden wird, setzt der Bot das um?--Tobi 00:42, 14. Sep 2006 (CEST)
- Das macht er schon - er setzt halt den derzeitigen Stand der Vorlage um ("tt. mmmm jjjj" - also mit dem langen Monatsnamen und der Zusatzbedingung, dass der Name abgekürzt wird, wenn er länger als 4 Buchstaben ist). Wenn bei der Vorlagendiskussion etwas anderes herauskommt, werde ich es entsprechend einbauen. --Reinhard 11:05, 14. Sep 2006 (CEST)
- Denkbar wäre auch, dass man ein Standardformat (z.B. das ISO-Format) verwendet und die eigentliche Umsetzung dann in der Formatvorlage macht bzw. abwartet, ob die Mediawiki-Software irgendwann auch ISO-Format umsetzt. Die Diskussion um die Datumsformatierung ist aber ja noch im Gange bzw. ich frage mich, ob bei diesem Meinungsbild etwas herauskommen wird. --Reinhard 11:22, 14. Sep 2006 (CEST)