Wikipedia Diskussion:Personendaten/Wartung/Fehlerliste

Einleitung dieser Diskussionsseite anzeigen

Archiv

2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2025
Wie wird ein Archiv angelegt?

Geburts- und Sterbedatum

Letzter Kommentar: vor 14 Jahren13 Kommentare5 Personen sind an der Diskussion beteiligt

Hallo, ein Vorschlag, um die vielen Datumsfehler und die Diskrepanzen mit den Kategorien zu vereinheitlichen:

Regulärer Ausdruck

Man müsste das zulässige Datumsformat durch einen regulären Ausdruck beschreiben. Mein Vorschlag in Backus-Naur-Form:

<Zahl>::=1|2| u.s.w.
<Monatszahl>::=1|2|...|31
<Monat>::=Januar|Februar|...|Dezember
<Jahr>::=<Zahl>|<Zahl> v. Chr.
<Jahrhundert>::=<Zahl>. Jahrhundert|<Zahl>. Jahrhundert v. Chr.
<Tag>::=<Monatszahl>.
<TagMonat>::=<Tag> <Monat>|<Monat> 
<Datum>::=<TagMonat> <Jahr>|<Jahr>|<Jahrhundert>|<TagMonat> <Jahrhundert>
<Datum2>::=<Datum>|vor <Datum>|nach <Datum>|um <Datum>|zwischen <Datum> und <Datum>|<TagMonat> vor <Jahr>|<TagMonat> nach <Jahr>|<TagMonat> um <Jahr>|<TagMonat> zwischen <Jahr> und <Jahr>
<Datum3>::=<Datum2>|<Datum2> oder <Datum2>
<Geburtsdatum>::=<Datum3>|getauft <Datum3>|unsicher: <Datum3>|unsicher: getauft <Datum3>
<Sterbedatum>::=<Datum3>|begraben <Datum3>|unsicher: <Datum3>|unsicher: begraben <Datum3>

Man muss vorher aber die Verlinkungsklammern entfernen. Natürlich könnte man diese Klammern auch noch in den regulären Ausdruck aufnehmen. Fälle, wie 31. April müssten danach ausgeschlossen werden, kann aber auch noch mit in den regulären Ausdruck aufgenommen werden. 29. Februar in einem Nichtschaltjahr kann praktisch nur danach geprüft werden.

Ein weiteres Problem sind die Jahresangaben wie "333/332 v. Chr." oder "um 360/370". Man kann diese leicht mit

<Jahr>::=<Zahl>|<Zahl> v. Chr.|<Jahr>/<Jahr>|<Jahr>/<Jahr> v. Chr.

zulassen. Damit erlaubt man zuviel, also müsste nachher noch extra geprüft werden.

Wenn man die zweite Version für <Jahr> verwendet, reichen folgende Fehler aus, wenn man vorher die Verlinkungsklammern entfernt:

Datum trifft nicht auf den regulären Ausdruck zu.
Datum enthält 30. Februar, 31. Februar, 31. April, 31. Juni, 31. September, 31. November. Dabei genügt es, nach diesen Strings zu suchen.
Datum enthält 29. Februar und Nicht-Schaltjahr. Dabei muss man für alle maximalen Teilstrings der Form "29. Februar Zahl", denen kein Punkt folgt, untersuchen, ob Zahl durch 4, aber nicht durch 100, oder durch 400 teilbar ist, falls Zahl größer als 1583 ist. Falls Zahl kleiner als 1583 ist, reicht es, auf die Teilbarkeit durch 4 zu achten. Damit erlaubt man sowas wie 29. Februar 19. Jahrhundert, was in Ordnung ist.
Datum liegt in der Zukunft. Man sucht nach maximalen Zahlen, denen kein "." oder " v" folgt, diese dürfen nicht größer als 2010 sein. Man sucht nach maximalen Zahlen, denen ". Jahrhundert" folgt, aber nicht ". Jahrhundert v", diese dürfen nicht größer als 21 sein.
Datum enthält "/". Wahrscheinlich muss man Heuristiken, wie bisher, verwenden, um die erlaubten Fälle zu finden.

Zuordnung Datum-Zeitintervall

Die Grundidee: Man ordnet dem GEBURTSDATUM und dem STERBEDATUM ein Intervall zu. D.h. GEBURTSDATUM=[g1,g2] und STERBEDATUM=[s1,s2]. Ebenso ordnet man den Geboren und Gestorben-Kategorien ein Intervall zu. D.h. Geboren=[kg1,kg2] und Gestorben=[ks1,ks2]. Mit G1:=min(max(g1,kg1),s2), G2:=min(g2,kg2,s2), S1:=max(s1,ks1,g1) und S2:=max(min(s2,ks2),g1) erhält man genauere Intervalle [G1,G2] und [S1,S2] für das Geburts- bzw. Sterbedatum.

Folgende Fehler müssten überprüft werden:

s2<g1: Tod vor Geburt laut Personendaten
ks2<kg1: Tod vor Geburt laut Kategorien
S2<G1: Tod vor Geburt laut Personendaten+Kategorien
Schnitt von [g1,g2] und [kg1,kg2] ist leer: Widerspruch zwischen GEBURTSDATUM und Geboren-Kategorie
Schnitt von [s1,s2] und [sg1,sg2] ist leer: Widerspruch zwischen STERBEDATUM und Gestorben-Kategorie

Wie erhält man so eine Zuordnung? Wenn man den regulären Ausdruck von oben verwendet, ist sichergestellt, dass die Datumsangaben aus elementaren Ausdrücken aufgebaut sind. Die Grundidee ist folgende: Man ordnet jeder elementaren Angabe ein Intervall auf Tagesbasis zu:

5. Mai 2010 = [5. Mai 2010, 5. Mai 2010]
Mai 2010 = [1. Mai 2010, 31. Mai 2010]
Juni 2010 = [1. Juni 2010, 30. Juni 2010]
Februar 2010 = [1. Februar 2010, 28. Februar 2010]
Februar 2008 = [1. Februar 2008, 29. Februar 2008]
2010 = [1. Januar 2010, 31. Dezember 2010]
20. Jahrhundert = [1. Januar 1901, 31. Dezember 2000]
5. Mai 20. Jahrhundert = Mai 20. Jahrhundert = 20. Jahrhundert = [1. Januar 1901, 31. Dezember 2000]
keine Angabe = [-unendlich, unendlich]

Problematisch ist "um" und "unsicher:". Ein Vorschlag:

um [a,b] = [a-10 Jahre, b+10 Jahre]

Dies ist großzügig, da aber PD und Kategorie verwendet wird, wahrscheinlich akzeptabel. So wird aus STERBEDATUM=um 5. Mai 2010 und Kategorie:Gestorben 2010 das Intervall [1. Januar 2010, 31. Dezember 2010]. Vielleicht sollte man das Intervall auch in Abhängigkeit von [a,b] wählen. Bei "begraben" und "getauft" kann man jeweils ein Jahr abziehen bzw. dazu addieren. Bei "unsicher:" ist die Situation komplizierter. Im Zweifelsfalle [-unendlich, unendlich]

Dann kann man weitermachen

vor [a,b] = [-unendlich,b]
nach [a,b] = [a,unendlich]
zwischen [a,b] und [c,d] = [a,d]
[a,b] oder [c,d] = zwischen [a,b] und [c,d] = [a,d]

Für die Kategorien ist es einfacher:

Geboren 2010 = [1. Januar 2010, 31. Dezember 2010]
Geboren im 20. Jahrhundert = [1. Januar 1901, 31. Dezember 2000]
Geboren im 19. oder 20. Jahrhundert = [1. Januar 1801, 31. Dezember 2000]
Geboren im 2. Jahrtausend = [1. Januar 1001, 31. Dezember 2000]
Geboren unbekannt = [-unendlich, unendlich]
keine Kategorie = [-unendlich, unendlich]

Mit Daten lässt es sich schlecht rechnen. Also sollte man eine Zahlencodierung wählen. Mein Vorschlag: Tag Monat Jahr wird für positive Jahre zu Jahr*10000+Monat*100+Tag, wobei Monat eben 1,2,...,12 ist. Für Jahre v. Chr. also negative Jahre bietet sich Jahr*10000+(10000-Monat*100-Tag) an. Also:

5. Mai 2010 = 20100505
3. Dezember 1876 = 18761203
1. Januar 1 = 10101
31. Dezember 1. v. Chr. = -18769
30. Dezember 1. v. Chr. = -18770
2. Januar 1 v. Chr. = -19898
1. Januar 1 v. Chr. = -19899

Damit ist die Codierung streng monoton bezüglich der Zeit. Ein weiterer Vorteil ist, dass man z.B. leicht erkennen kann, dass bei [a,b] a und b in einem Jahr liegen, nämlich wenn sich a und b nur an den letzten 4 Stellen unterscheiden. Wenn sie sich nur an den letzten 2 Stellen unterscheiden, so liegen a und b sogar im gleichen Monat.

Ich weiß, dass ist sicherlich nicht ganz einfach zu programmieren, aber bietet meiner Meinung nach große Vorteile. Man könnte diese Codierung z.B. auch in APPERs Datenbank verwenden. Andim 15:45, 23. Mai 2010 (CEST)Beantworten

Also die Idee mit den Intervallen ist sicherlich sehr effizient, aber dazu müsste ich die komplette Anwendung umschreiben. Bisher sind wir mit dem Weg sehr gut gefahren, dass wir uns einzelne Probleme raus picken und dann dafür eine Fehlermeldung speziell generieren. Ich glaube die Mehrzahl der Probleme decken wir schon sehr gut ab. Nur durch die Einführung neuer Kategorien wie "Geboren 9. oder 10. Jahrhundert", muss ich noch einige Dinge neu einbauen. -- sk 15:43, 25. Mai 2010 (CEST)Beantworten

Ein noch ganz unbefriedigendes Python-Programm, welches einen Teil der in diesem und dem vorhergehenden Abschnitt vorgeschlagenen Aufgaben erfüllt, habe ich unter meine Benutzerseite gestellt. (Dort im Vorspann auch kurze Bemerkungen zu Mängeln des Programms.) Es ist arbeitsfähig, angewandt auf die Personenartikel im Dump vom 26. März beanstandet es 231 GEBURTS/STERBEDATUMs-Zeilen. Darunter viele, die Stefan meldet (es fehlen mehrzeilige Angaben und mehrere gleichartige Angaben in einem PD-Block, vor allem aber aus dem Kontext abgeleitete Widersprüche), aber auch ein paar weitere (der wohl häufigste Fall: [[5. Mai 555]]). Eine Weiterentwicklung ist geplant, wird aber aus Zeitmangel etwas dauern. Sie soll dann auch die Kategorien und den Abgleich mit ihnen sowie zwischen Geburts- und Sterbedaten umfassen.

Etwas unglücklich ist hier die Parallelarbeit, teilweise bedingt durch die verschiedenen verwendeten Programmiersprachen. Sicher gibt es aber Möglichkeiten, anderssprachige Programme/Funktionen einzubinden? (Die Möglichkeiten regulärer Ausdrücke scheinen mir für eine gründliche Prüfung jedenfalls nicht ausreichend zu sein.) --Griot 17:54, 25. Mai 2010 (CEST)Beantworten

Ich hab von Python keinen Plan, aber man sieht an dem Programm sehr schön, wie viel Programmierarbeit da reingesteckt werden muss, um sowas umzusetzen. Ich bin dankbar über jeden Hinweis auf unentdeckte Fehler. Ich versuche die auch zeitnahe einzubauen. Ich denke wir haben schon fast alle drin. - Vielleicht sollten wir sowas wie ein Testfeld in Form mehrere Testunterseite bauen, die alle möglichen Fehler auflistet und schauen was die Software davon findet. Sowas wie Pseudpersonenartikel ("Max Mustermann-a", "Max Mustermann-b" mit allen möglichen Fehlern. Dadurch würden wir den Artikelnamensraum nicht verschmutzen und würden aber sehen was uns noch fehlt. -- sk 10:42, 26. Mai 2010 (CEST)Beantworten

Eine genaue Festlegung des Formats mittels BNF finde ich sehr gut, ich dachte, ich hätte sowas auch schonmal vorgeschlagen, aber nur Vorschläge von Griot gefunden. Im Grunde sollte so etwas irgendwann mal auf einer Unterseite von Hilfe:Personendaten vermerkt werden.

Eine Erweiterung der Personensuche, dass diese Intervalle aufnimmt, habe ich auch schon mehrfach überlegt, ist aber jedes Mal aus Zeitgründen gescheitert. --APPER\^☺☹ 03:47, 27. Mai 2010 (CEST)Beantworten

Stefans Vorschlag eines Testfelds halte ich für sehr gut. Und den Wunsch nach einer BNF-definierten Syntax für berechtigt. Das erfordert aber noch die Klärung alter vertagter Fragen... Leider bin ich für ein bis zwei Monate stark eingebunden, so dass mir nennenswerte Mitarbeit nicht möglich ist. So eilig ist's aber vielleicht auch nicht? – Bei der Gelegenheit: Fortschritte bei der Bearbeitung der Fehler "Diskrepanz zwischen NAME-Feld und Lemma" würden mich sehr freuen, den Grund beschrieb ich kurz in dieser Diskussion (alles Wesentliche steht im zweiten Beitrag). Das sind wohl Stefans Fehlerkategorien 252, 28, 202, 259. --Griot 00:22, 28. Mai 2010 (CEST)Beantworten

Ich hab vorher noch nie von der Backus-Naur-Form gehört. Gefällt mir aber sehr gut. Ich schau mal wie man das in Perl einbauen kann bzw. umsetzen kann. -- sk 10:03, 28. Mai 2010 (CEST)Beantworten

Du kannst natürlich aus meiner BNF-Formulierung einen regulären Ausdruck erhalten, indem Du die Bezeichner rekursiv ersetzt. Andim 16:52, 29. Mai 2010 (CEST)Beantworten

Umsetzung BNF

Ich hab mal mit Perl etwas rumgespielt und habe versucht die oben angesprochenen BNF einzubauen. Mit den Daten aus einem der letzten Dumps bekomme ich noch knapp 200 falsche Datumsangaben. Das ist schon mal sehr gut bei über 130000 PD sind dass nur 0,15%. Vieles sind echte Tippfehler, aber es gibt auch zahlreiche Angaben wie "183/182 v. Chr.". Wenn wir jetzt so eine strikte Überprüfung einführen müssen wir auch diese ordentlich händeln oder durch was besseres ersetzten. Ich weiß das wird ein Aufschrei bei den Historikern geben, aber wir müssen das mal klären. Anbei die offenen Problemfälle. -- sk 10:22, 24. Aug. 2010 (CEST)Beantworten

* 	" 18. Juni 1993,  "
* 	" 195x"
* 	" 2.November 1977"
* 	"<!--24. September 1660 oder -->16. Juli 1662 oder 16. September 1662 oder 24. September 1662"
* 	"01. April 1919"
* 	"01. April 1950"
* 	"02. Januar 1845"
* 	"02. März 1882"
* 	"02. November 1649"
* 	"04. Oktober 1966"
* 	"06. Mai 1966"
* 	"06.10.1988"
* 	"07. September 1846"
* 	"09. März 1927"
* 	"1. Dezember 1779 (Taufdatum)"
* 	"1. Jahrhundert n. Chr."
* 	"1. Jahrtausend"
* 	"1. Oktober 1790c"
* 	"1. oder 2. Jahrhundert"
* 	"1.Oktober 1959"
* 	"1.September 1824"
* 	"10. Juni  1850"
* 	"10. März] 1880"
* 	"10. Okotber 1905"
* 	"10. oder 11. Juni 1051"
* 	"11. April  1840"
* 	"11. Mai  1926"
* 	"11.August 1984"
* 	"11.Februar 1988"
* 	"113. Juli 886"
* 	"1158/1160"
* 	"12. Oktober  1767"
* 	"12. Oktober1860"
* 	"12.Januar 1987"
* 	"12.Juni 1958"
* 	"13. Mai  1990"
* 	"13. oder 15. Dezember 1644"
* 	"13. oder 16. August 1920"
* 	"13.September 1969"
* 	"14.Februar 1991"
* 	"1470/80"
* 	"15. Jänner 1953"
* 	"15. Mai  1981"
* 	"15.(?) September 1941"
* 	"1587/1589"
* 	"16.August 1932"
* 	"16.Dezember 1708"
* 	"16.November 1979"
* 	"1637/1638"
* 	"1687/88"
* 	"17 . Mai 1963"
* 	"17. Dezember 1979]"
* 	"17. Jänner 1784"
* 	"17. Jänner 1874"
* 	"17. Jänner 1943"
* 	"17.08.1964"
* 	"17.Mai 1953"
* 	"17.September 1985"
* 	"18. Jänner 1880"
* 	"18. oktober 1880"
* 	"18.Dezember 1984"
* 	"183/182 v. Chr."
* 	"19. Juni  1919"
* 	"19. Juni 1919 (nach KCL 1930: 1921)"
* 	"19. oder 20. Jahrhundert"
* 	"19.9.1740"
* 	"2. Jahrhundert n. Chr."
* 	"2. oder 1. Jahrhundert v. Chr."
* 	"20. Jänner 1936  "
* 	"20. März 1760 (Taufdatum)"
* 	"20. Novemberr 1978"
* 	"20. oder 25. März 1907"
* 	"20.Juli 1982"
* 	"20.September 1972"
* 	"21. August 1550 (Taufe)"
* 	"21. Jänner 1884"
* 	"21. Jänner 1983"
* 	"21.März 1745"
* 	"22. Jänner 1904"
* 	"22. Jänner 1959"
* 	"22. März  2010"
* 	"22. März (?) 2010"
* 	"22.August 1952"
* 	"22.Februar 1765"
* 	"22.Juni 1981"
* 	"22.Juni 1982"
* 	"22.November 1823"
* 	"22.Oktober 1978"
* 	"24. Juli"
* 	"24. Mai  1805"
* 	"24. Mai 196ß"
* 	"24.3.1891"
* 	"24.April 1964"
* 	"24.Dezember 1969 "
* 	"25. Jänner 1927"
* 	"25. September  1521"
* 	"25.Oktober 1939"
* 	"252/251 v. Chr."
* 	"26. Februar"
* 	"26. Jänner 1803"
* 	"26.September 1989"
* 	"27. Jänner 1944"
* 	"27. Juni1963"
* 	"27. September"
* 	"27.November 1790"
* 	"27.September 1991"
* 	"28. Septe,mber 1959"
* 	"28.03.1956"
* 	"28.6.1839"
* 	"29. Jänner 1994"
* 	"29. Mai  1870"
* 	"29. Mai  1977"
* 	"29.August 1962"
* 	"29.Januar 1988"
* 	"29: März 1754 "
* 	"3. Juni  1938"
* 	"30. Jänner 2009"
* 	"30.April 1806"
* 	"311/310 v. Chr."
* 	"314/313 v. Chr."
* 	"327/326 v. Chr."
* 	"332/331 v. Chr."
* 	"348/347 v. Chr."
* 	"352/351 v. Chr."
* 	"353/352 v. Chr."
* 	"359/358 v. Chr."
* 	"374/373 v. Chr."
* 	"377/376 v. Chr."
* 	"396/395 v. Chr."
* 	"4. Dezember"
* 	"4. Jänner 1924"
* 	"428/427 v. Chr."
* 	"5.Fenruar 1976"
* 	"5.März 2010"
* 	"6 Februar 1958"
* 	"6. November"
* 	"6.Mai 1987"
* 	"6/5 v. Chr."
* 	"631/627 v. Chr."
* 	"69/68 v. Chr."
* 	"7. Juli  1977"
* 	"7.Februar 1888"
* 	"7.Februar 1982"
* 	"7.März 2010"
* 	"8.  September 1914"
* 	"8. August 1978, "
* 	"8. oder 9. Jahrhundert"
* 	"9. Jänner 1891"
* 	"9. März1965"
* 	"9.Mai 1694"
* 	"? (nach 1938, wird noch geklärt)"
* 	"Jahreswende 1740/1741 "
* 	"Juni 1943 (vermisst)"
* 	"Padua, Italien"
* 	"ca. 1942"
* 	"ca. 1949"
* 	"im 13. Jahrhundert"
* 	"im 19. oder 20. Jahrhundert"
* 	"im 20. Jahrhundert"
* 	"im 9. Jahrhundert"
* 	"nach 120/119 v. Chr."
* 	"nach 317/316 v. Chr."
* 	"nach 325/324 v. Chr."
* 	"nach dem 5. August 1942"
* 	"um 1030–1040"
* 	"um 1035–1040"
* 	"um 1095–1100"
* 	"um 1129–1135"
* 	"um 1209/1215"
* 	"um 1254–1258"
* 	"um 1290–1295"
* 	"um 1355–1360"
* 	"um 1360–1364"
* 	"um 1468/69"
* 	"um 1490–1500"
* 	"um 1509–1530"
* 	"um 1514–1535"
* 	"um 1539–1535 v. Chr. oder um 1522 v. Chr."
* 	"um 1774/1777?"
* 	"um 213/212 v. Chr."
* 	"um 25/24 v. Chr."
* 	"um 30–32"
* 	"um 375–370 v. Chr."
* 	"um 410–407 v. Chr."
* 	"um 435/429 v. Chr."
* 	"um 787–782 v. Chr."
* 	"um 800–796 v. Chr."
* 	"um 801–798 v. Chr."
* 	"um 837–835 v. Chr."
* 	"um 85–90"
* 	"um 852–849 v. Chr."
* 	"um 874–869 v. Chr."
* 	"um 885–876 v. Chr."
* 	"um 886–877 v. Chr."
* 	"unbekannt"
* 	"unsicher : vor 630"
* 	"wohl 1640"

Wenn ich es richtig sehe, dann sind davon ca.100 reine Tippfehler die im Wesentlichen unproblematisch sein dürften. Natürlich könnte eine Änderung von "Jänner" auf "Januar" bei unseren österreichischen Freunden auf Kritik stoßen. Bie den Angaben wie "um 1509-1430" kann man sicher auf "16. Jahrhundert" ändern. Dann wird noch ein gewisser Bodensatz übrigbleiben, zu den mir jedenfalls dann nichts mehr einfällt. Gruß --Pelz 20:27, 24. Aug. 2010 (CEST)Beantworten

Wenn man "x. Jahrtausend" und "y. Jahrtausend v. Chr." noch erlaubt, bleiben als kritische Fälle doch nur sowas wie "320/319 v. Chr." und "um 85-90" übrig. Letzteres kann man mit zwischen auflösen. Andim 22:01, 24. Aug. 2010 (CEST)Beantworten

Dieses Auflösen mit "zwischen" wurde uns beim letzten Mal schwer angekreidet. Vielleicht sollten wir das bei Jahreszahlen vor 400 noch mit aufnehmen. -- sk 22:39, 24. Aug. 2010 (CEST)Beantworten

Die Klärung einiger offener Punkte ist sicher nötig. Da sie aber bereits mehrere Jahre verschoben wurde und kein aktuell dringender Grund zu sehen ist, muss sie vielleicht nicht in kürzester Zeit erfolgen. Ich bitte um ein paar Wochen Aufschub, um mich an der Diskussion beteiligen zu können. (Zur Zeit bin ich leider ohne eigenen Internetanschluss.) Eine vollständige BNF-Darstellung, die allerdings etwas mehr Freiheiten gewährt, als die gültigen PD-Vorschriften, ist übrigens verstreut in den Kommentarzeilen meines oben bereits genannten Programms enthalten. --Griot 23:08, 30. Aug. 2010 (CEST)Beantworten

Alte/neue Fehlermeldung

Letzter Kommentar: vor 14 Jahren28 Kommentare4 Personen sind an der Diskussion beteiligt

Heute hatte ich ein paar Mal die schon längst "totgeglaubte" Fehlermeldung: DBI connect('u_sk_pd_p:host=sql','sk',...) failed: User 'sk' has exceeded the 'max_user_connections' resource (current value: 15) at ./pd.cgi line 28 Gruss --Pelz 22:24, 9. Jun. 2010 (CEST)Beantworten

Ist mir auch aufgefallen. Bitte am besten immer hier melden. Ich bin am überlegen, ob ich wie beim Checkwiki-Interface die Übersichtsseiten als statische HTML-Seiten erstelle und alle 15 Minuten diese aktualisiere. -- sk 21:27, 10. Jun. 2010 (CEST)Beantworten

Bei Deiner Überlegung kann ich Dir in Ermangelung von speziellen Kenntnissen natürlich nicht helfen. Heute(gestern) ist es mir 1x wieder aufgefallen. Gruss --Pelz 00:43, 11. Jun. 2010 (CEST)Beantworten

Heute (gestern) auch schon wieder x-mal. Gruss --Pelz 00:05, 15. Jun. 2010 (CEST)Beantworten

Und gerade schon wieder. --Pelz 13:50, 16. Jun. 2010 (CEST)Beantworten

Jetzt auch. --Pelz 07:32, 18. Jun. 2010 (CEST)Beantworten

So wie es aussieht werde ich mich da mal doch noch mal eine besseres System überlegen müssen. -- sk 21:08, 18. Jun. 2010 (CEST)Beantworten

Ja Stefan, das wäre schön. Gerade bin ich mal wieder an der Abarbeitung gehindert. Ist schon frustierend an so einem technischen "Mist" zu scheitern. Gruss --Pelz 15:32, 19. Jun. 2010 (CEST)Beantworten

Leider passiert das immer noch --Pelz 22:56, 28. Jun. 2010 (CEST)Beantworten

...und immer wieder kommt das Fehlerlein --Pelz 22:16, 12. Jul. 2010 (CEST)Beantworten

hoffentlich kann SK das bald richten. Mein linker Zeigefinger (der sog. "F5"-Finger) tut schon gewaltig weh. --Pelz 23:39, 17. Aug. 2010 (CEST)Beantworten

Leider ist der Fehler immer noch aktuell --Pelz 23:29, 30. Aug. 2010 (CEST)Beantworten

..auch heute schon wieder. --Pelz 20:41, 6. Sep. 2010 (CEST)Beantworten

Lese erst jetzt, dass hier diese "Fehlermeldung" gepostet werden sollte. Damit denn auch einmal jemand anderes als Benutzer:Pelz hier postet, melde auch ich diesen Fehler. Heute, gestern, eigentlich schon so lange wie ich hier mithelfe :-) Wäre schön, wenn hier Abhilfe geschaffen werden könnte...--Silke Ewering 21:37, 6. Sep. 2010 (CEST)Beantworten

... auch eben wieder. Und das dann bei einer sowieso langsamen Reisecompi. Gruss --Pelz 17:19, 19. Sep. 2010 (CEST)Beantworten

nächste Meldung --Pelz 14:19, 26. Sep. 2010 (CEST)Beantworten

Ich dachte schon, gestern/heute liefe mal alles glatt. Leider nicht. --Pelz 00:40, 1. Okt. 2010 (CEST)Beantworten

Gelegentlich bin auch ich davon betroffen. Andim 19:58, 3. Okt. 2010 (CEST)Beantworten

Schön, dass nicht nur ich das feststelle. Gestern auch schon wieder. --Pelz 00:44, 6. Okt. 2010 (CEST)Beantworten

Da ich leide derzeit mit meinem Rechner zwangsoffline bin nach Umzug und noch andere Sachen an der Backe habe, muss ich euch um Geduld bitten. Derzeit läuft das Tool live. Das heißt jeder Mausklick löst ein select-statment in der datenbank aus. Teilweise brachen die Abfragen wegen "group by" oder "order by"-Klauseln etwas länger in der DB. Wenn nun mehr leute es gleichzeitig nutzen, kommt immer die Regel "Maximal 15 Nutzer" ins Spiel. Das heißt wenn 10 nutzer mit der CheckWikipedia-Tool arbeiten, dann bleiben noch 5 für das PD-Tool. Eine Erhöhung der Nutzerzahl wollen die Admins des Toolservers nicht. Ich kann das PD-Tool so umstricken wie das Check-Wikipedia-Tool. Dadurch werden nur alle 15 Minuten die Daten aktualisiert, aber dafür sind die Abfragen auf die DB deutlich schneller, weshalb dann nicht mehr so oft die Fehlermeldung bekommt. -- sk 10:48, 7. Okt. 2010 (CEST)Beantworten

Ich will nur mal so vermelden, dass der Fehler noch immer existiert. Leider. --Pelz 22:42, 15. Nov. 2010 (CET)Beantworten

...immer noch --Pelz 16:33, 21. Nov. 2010 (CET)Beantworten

Lieber Stefan, könntest Du uns nicht ein schönes Weihnachtsgeschenk machen und den Fehler irgendwie ausbügeln? --Pelz 21:53, 29. Nov. 2010 (CET)Beantworten

Noch haben wir kein Weihnachten, der Fehler ist auch noch da. Vielleicht beschenkt uns Stefan doch noch. --Pelz 21:46, 21. Dez. 2010 (CET)Beantworten

Die TS-Admins können das Limit auf Anfrage anheben. Mein Tipp wäre auf FastCGI zu wechseln. FastCGI startet einen neuen Interpreter nur recht ungern, weshalb die Anfragen meist sequentiell abgearbeitet werden. Damit würde sich die Anzahl der gleichzeitigen Datenbankverbindungen deutlich reduzieren. Zudem wird das ganze Script durch FastCGI schneller, damit die Dauer einer DB-Verbindung kürzer, was die Überschneidung ebenfalls reduziert.

Wenn du es noch mehr tunen willst, kannst du dadurch mit einem Scriptaufruf und einer Schleife direkt mehrere Serveranfragen beantworten. Damit kannst du über eine DB-Verbindung gleich mehrere Anfragen beantworten und der Overhead für den Verbindungsaufbau entfallen lassen. Ich habe mir dein pd-Script angesehen. Das kann man ganz schnell umschreiben. Du musst nur den Header anders setzen und die Parameter anders auslesen, was du aber eh nur einmal an Anfang machst und deshalb am Rest des Script nichts ändern musst.

Dein Versuch mit den statischen Seiten finde ich zu umständlich - kostet deutlich mehr Schreibarbeit. Merl issimo 22:32, 21. Dez. 2010 (CET)

@sk Ich habe mir eben mal dein Script vorgenommen und so einige Verbesserungen eingebaut. Aufgrund deines Scriptaufbaus waren folgende Änderungen aber sehr einfach vorzunehmen:

Umstellung auf FastCGI-Interpreter (Interpreter muss nicht ständig neu gestartet werden -> Performancegewinn)
Mehrere Serveranfragen durch einen Scriptaufruf beantworten (Datenbankverbindung muss nicht jedesmal neu aufgebaut werden -> Performancegewinn)
Einige SQL-Abfragen umgeschrieben (einige subselects und group by vermieden, wodurch kleinere Temporärtabellen entstehen und Keyeffizienz erhöht wird, was die Abfrage z.T. deutlich beschleinigt)
Durch Punkt 2 ergibt sich die Möglichkeit die PreparedStatements zu cachen und wiederzuverwenden (Query muss im Cache-Fall nicht neu kompiliert werden -> Performancegewinn)
SQL-Parameter dynamisch gebunden statt schon im Statement (Cache-Hit-W'keit wird stark erhöht)
Ein bisschen Debug-Ausgabe am Ende des Scripts (Laufzeit, Server, pid)
Scriptpfade angepasst, so dass sie sich automatisch dem aktuellen Pfad anpassen
mysql-Password wird nun aus ~/.my.cnf ausgelesen (sollte damit auf jeden TS-Account funktionieren)

Ich habe ein paar wenige Kommentare eingebaut, aber ich denke, das solltest du recht schnell überblicken können, da ich deinen Programmierstiel beibehalten habe. Zudem sind es, bis auf den Anfang, nur Kleinigkeiten. Ich denke damit wird das Script deutlich mehr parallele Anfragen verkraften und das bei weniger Datenbankverbindungen. Problem ist natürlich, dass dies wenig nutzt, wenn sich nun dein Checkwikipedia-Script die DB-Verindungen einheimst und somit keine mehr übrig bleiben.

Du solltest es einfach so ohne Probleme übernehmen können, jedoch darf es nicht mehr im cgi-bin-Verzeichnis stehen, da dort FastCGI nicht funktioniert. Die Anfragen kannst du per rewrite.script umleiten, damit du nicht direkt alle Link in WP ändern musst. Falls du dich nicht mit ZWS auskennen solltest, frag einfach nach (ist tricky, wenn man nur mod_rewrite kennt - habe damals auch einige Zeit bei der schlechten Doku gebraucht).

Die gepimpte Version befindet sich derzeit unter http://toolserver.org/~merl/test/pd.fcgi (lösche ich aber später wieder). Quellcode kannst du einfach auf den TS über /home/merl/public_html/test/pd.fcgi beziehen. Ich hoffe das war dir recht und du kannst dir die Arbeit einer Snapshot-Version sparen. Eine Anfrage, wo sich mehrere Verbesserungsfaktoren von oben vereinen ist z.B. diese Abfrage: http://toolserver.org/~merl/test/pd.fcgi?view=only&id=267 (<<0,1 sek verbessert sich noch bei häufigem Aufruf) und http://toolserver.org/~merl/cgi-bin/pd.cgi?view=only&id=267 (Ursprungsversion, nur um Scriptlaufzeitausgabe am Ende ergänzt: 5-15 sek). Merl issimo 08:37, 22. Dez. 2010 (CET)

WOW, vielen dank Merlissimo. Ich schau mir das mal in Ruhe an. Ich danke dir erstmal für die konkrete Hilfe. Zu deiner Info bei CGI bin ich Autodidakt und bin schon glücklich überhaupt sowas hinbekommen zu haben. Mal schauen was ich da noch alles lernen kann aus deinen Verbesserungen. Würde sie dann auch mit in das Checkwiki-Skript übertragen. Das läuft fast genauso. -- sk 09:51, 22. Dez. 2010 (CET)Beantworten

Die Ergebnisse sind beeindruckend. Alles so viel schneller durch das FastCGI. Wusste nicht das es sowas gibt. Die Notlösung mit den statischen Seiten musste ich gehen, um mit meinen begrenzten Wissen noch einen Blumentopf zu gewinnen. :-) Ich kann mir zwar erst heute abend oder morgen den Quellcode anschauen, bin aber schon ganz gespannt. Darf ich die bei Perl-Fragen anmailen? Ich bin noch auf der Suche nach einem Gesprächspartner, der mir bei Perl ab und an mal einen Tipp oder Hinweis geben kann. Wenn man nicht weiß wonach man suchen soll, ist es meist sehr viel schwieriger etwas zu finden. -- sk 10:00, 22. Dez. 2010 (CET)Beantworten

Ehrlich gesagt habe ich erst eine handvoll Scripte in Perl geschrieben. Nie eine wirkliche Webseite oder gar was Großes. Jeden Befehl musste ich auch erst in der API nachsehen - auch die Syntax. Ich bevorzuge php bei den Scriptsprachen. Aber ich habe natürlich Informatik studiert und, wenn man die paar Basiskonzepte und ein Dutzend andere Sprachen gut kennt, kann man sich schnell nach einem kurzen Blick reindenken.

Hauptproblem bei dem Beispiel oben war aber mysql und nicht Perl. Den Nutzen von FastCGI und gecachten Statements siehst du erst, wenn du eine Seite mehrmals hintereinander lädst. Beim ersten Aufruf wirkt sich FastCGI nur auf den Speicherverbrauch aus und noch nicht auf die Laufzeit (Interpreter- und DB-Verbindungs-Initialisierung fallen erst bei der Wiederverwendung weg). Der gleichzeitige Zugriff und die damit verbundenen parallelen SQL-Zugriffe verursachen aber das hier angesprochene Problem, das FastCGI minimieren kann. Die Mysql/Cache-Optimierung verkürzt die Laufzeit auch beim ersten Aufruf, was eine Überschneidung nur unwahrscheinlicher macht. Du musst nur beim Debuggen aufpassen, weil nun eine Anfrage an ein Script gehen kann, dass schon vor einigen Minuten gestartet wurde und somit noch nicht deine letzte Änderung am Quellcode mitbekommen hat.

Die Select-Query mit join zwischen SubSelect und Table bei get_(done_)article_of_error war echt übel, weil die innere Query erstmal mehrere zehntausend Ergebnisse in eine temporäre Tabelle kopieren muss und kaum was optimieren kann. Der join mit sich selbst plus group und kleinem limit ist da deutlich schneller, weil gar nicht erst alle Datensätze geladen werden müssen. Wenn du diese eine Query nach checkwikipedia übernimmst, wäre die größte Not auch schon behoben. Beim Rest einfach zwei Editoren nebeneinander und die beiden Versionen Zeile für Zeile vergleichen - ist wirklich nicht viel geändert. Merl issimo 12:09, 22. Dez. 2010 (CET)

Unter http://toolserver.org/~merl/test/pd2.fcgi habe ich dir noch eine Version gebaut, wo zusätzlich noch die Hauptübersichtsseiten (high, middle, low, all, ) gecached werden. (Von hier geklaut.) Merl issimo 13:02, 22. Dez. 2010 (CET)

Ich hab mir jetzt mal die CGI-Skripte lokal kopiert. Bin seit kurzem mit Ubuntu unterwegs und muss jetzt mal schauen wie ich dort die CGI-Skripte testen kann. -- sk 21:52, 24. Dez. 2010 (CET)Beantworten

..gerade war der Fehler mal wieder da. --Pelz 20:50, 27. Dez. 2010 (CET)Beantworten

Text ohne Geburts- oder Sterbedatum

Letzter Kommentar: vor 14 Jahren17 Kommentare5 Personen sind an der Diskussion beteiligt

Fett- und Kursivschrift

Wenn man sich die Rubrik anschaut, sieht man das das Semikolon vor dem Sternchen innerhalb einer Fettschreibung oder Kursivschrift steht (beispielsweise bei Charles Chaplin). Ich bin mir unsicher ob das Semikolon auch fett/kursiv sein soll oder nicht. Ich habe auch mal gelesen, das ein Satzzeichen nach einem formatierten Wort in der gleichen Formatierung sein sollte, weiß aber nicht mehr wo. Wie seht ihr das? Der Umherirrende 20:40, 21. Jun. 2010 (CEST)Beantworten

Danke für die Frage. Sehe ich auch als Problem. Meiner Meinung nach müsste das nicht fett/kursiv sein, aber ich kenne da keine offizielle Regel. -- sk 10:37, 23. Jun. 2010 (CEST)Beantworten

getauft/begraben

Ein getauft (oder begraben) in den Personendaten sollte man ausschließen oder nach den entsprechenem Text suchen (Peter von Winter) --Der Umherirrende 16:37, 2. Jul. 2010 (CEST)Beantworten

nbsp als Leerzeichenersatz

Im Artikel Abraham B. Jehoshua wird ; * genutzt. Dieses und die weiteren Zeichen sollten als Leerzeichen betrachtet werden. Der Umherirrende 12:01, 3. Jul. 2010 (CEST)Beantworten

Wenn man solch einen Artikel gerade bearbeitet, kann man dieses Zeichen gleich mit entsorgen, da es überflüssig und an dieser Stelle unüblich ist. Dann taucht es in der Ergebnisliste der Suche automatisch nicht mehr auf. --RonaldH 18:26, 25. Jul. 2010 (CEST)Beantworten

Ja, dann würde ich das auch machen, aber bei den meisten Artikel ist sonst nichts zu machen, daher plädiere ich dafür, das "anzuerkennnen". Wikitext ist sehr tolerant (bzw. der Parser). Der Umherirrende 21:46, 28. Jul. 2010 (CEST)Beantworten

In vielen Fällen wird das nbsp genutzt, um die Textrichtung zu erhalten, da Rechts-nach-Links-Text die Eigenheit hat, alles durcheinander aussehen zu lassen. Durch nbsp steht aber Text mit einer eigenen Textrichtung hinter dem Text mit der anderen Textrichtung und die Browser können das besser im Editor darstellen. Ob ein LTR/RTL-Marker besser ist, weiß ich nicht. Es ist aber meistens möglich das nbsp zwischen den Sternchen und Datum zu verschieben, dort scheint es dem Skript hier weniger zu stören, hat aber noch die gleiche Wirkung. Der Umherirrende 20:07, 22. Aug. 2010 (CEST)Beantworten

Übermäßige Leerzeichen =

Im Artikel Xu Beihong sind zwei Leerzeichen zwischen dem Semikolon und dem Sternchen. Ich denke, das sollte als "richtig" erkannt werden, da die Anzeige ja richtig ist. Der Umherirrende 11:34, 25. Jul. 2010 (CEST)Beantworten

Selbe Meinung wie zum Fall drüber. Nur weil die Anzeige passt, ist der Code noch lange nicht "richtig". Auch hier spricht nichts gegen eine Bereinigung en passant. --RonaldH 18:26, 25. Jul. 2010 (CEST)Beantworten

Stellt sich die Frage, um was es geht. Ich würde eher sagen, das es dem Leser einheitlicher vorkommt. Aber das ist auch wieder Geschmackssache. Der Umherirrende 21:46, 28. Jul. 2010 (CEST)Beantworten

Alternative Zeichen für Gestorben

Im Artikel William Ponsonby wird ein X verwendet. Laut Genealogische Zeichen handelt es sich um "gekreuzte Schwerter", da der Betroffende gefallen ist. Hat jemand eine Idee? Auch ein Kreuz setzen oder so lassen? Der Umherirrende 17:19, 25. Jul. 2010 (CEST)Beantworten

auf der genannten Seite steht aber auch dass es sich bei dem X um ein Ersatzzeichen handelt. Habe nun mal das korrekte Zeichen eingefügt, in der Hoffnung, dass das nun auch für jeden sichtbar ist. Imho sollte das künfigt verwendet werden. --Graphikus 18:05, 25. Jul. 2010 (CEST)Beantworten

Ich halte gar nichts von diesem Sonderzeichen. Da gibt es doch nur wieder Streit, wann jemand als "gefallen" gilt und wann nicht. Sympatisanten bestimmter Organisationen werden "ihre Kämpfer" als "gefallen" bezeichnen, obwohl diese Organisationen nach westeuropäischem Rechtsverständis kriminell sind. Lassen wir es besser beim mehrheitlich anerkannten †. --Pelz 13:46, 27. Jul. 2010 (CEST)Beantworten

Der Einwand hat Sinn, ich weiß garnicht ob es für das Symbol eine anerkannte Definition außerhalb der Wikipedia gibt. So brauch auch nichts am Skript angepasst werden. Der Umherirrende 21:46, 28. Jul. 2010 (CEST)Beantworten

HTML-Kommentar

Im Artikel Tsenshab Serkong Rinpoche befindet sich ein Kommentar zwischen Klammer und Stern. Der Umherirrende 21:13, 30. Jul. 2010 (CEST)Beantworten

griechische Wörter vor dem Datum

Auf meiner Diskussionsseite wurde mir geschrieben, das ein Semikolon nach einem griechischem Wort falsch ist, da das Semikolon im griechischen ein Fragezeichen entspricht und somit dort schlecht platziert ist. Ich kenne mich da überhaupt nicht aus und wollte es nur notieren. Der Umherirrende 20:33, 13. Aug. 2010 (CEST)Beantworten

Es handelt sich um die Vorlagen mit dem Präfix ELS --Der Umherirrende 20:03, 22. Aug. 2010 (CEST)Beantworten

Vorschlag: Alternativname fehlt

Letzter Kommentar: vor 14 Jahren5 Kommentare2 Personen sind an der Diskussion beteiligt

In der Kopfzeile ist ein anderer Name angegeben als im Lemma, jedoch im Feld |ALTERNATIVNAMEN= kein Eintrag. --Graphikus 13:06, 19. Okt. 2010 (CEST)Beantworten

Dürfte knifflig werden. Ich überlege mir mal was. Vielleicht kann man die ersten fetten Wörter rausextrahieren und mit dem Lemma vergleichen. Das sollte eigentlich helfen. -- sk 12:28, 16. Nov. 2010 (CET)Beantworten

Also das mit den fetten Wörtern am Textanfang müsste gehen. Mal schauen ob ich das programmieren kann. Dabei ist mir eine weitere Idee gekommen. Leute wie Pilo oder DeLía wird man auch damit nicht besser finden. Aber wenn ich sage, nach 1875 ist in Deutschland keiner mehr ohne zwei Namensbestandteile (Vor- und Familienname) gewesen, dann kann man solche Leute leicht finden. Interessant finde ich Crauss, der angeblich vornamslos ist. -- sk 16:40, 16. Nov. 2010 (CET)Beantworten

Ok, hab mal einen neuen Erkennung (267) in das Skript eingebaut. Sollte morgen früh online sein. -- sk 22:01, 16. Nov. 2010 (CET)Beantworten

Danke Stefan. Heute 2.200 neue Fehler. Gruß --Graphikus 10:09, 17. Nov. 2010 (CET)Beantworten

ID 7 - Kategorien fehlen

Letzter Kommentar: vor 14 Jahren8 Kommentare4 Personen sind an der Diskussion beteiligt

Seit Tagen taucht dort  auf, obwohl die Löschung bereits am 13. Oktober erfolgte. --Schnark 11:13, 4. Nov. 2010 (CET)Beantworten

Ok, erledigt. Scheint sich ohne mein Zutun erledigt zu haben. -- sk 11:29, 16. Nov. 2010 (CET)Beantworten

Nein, bei mir taucht er immer noch als erster Eintrag hier auf. --Schnark 12:17, 16. Nov. 2010 (CET)Beantworten

Dann scheint gestern als ich das Überprüft habe jemand mit "Erledigt" das schon weggeklickt zu haben. Ich schau mir das mal an. -- sk 12:25, 16. Nov. 2010 (CET)Beantworten

Ok, erledigt. Hab es von Hand rausgeschmissen. -- sk 08:58, 17. Nov. 2010 (CET)Beantworten

Nein, das Ding ist verdammt hartnäckig. Gestern war es drin, heute ist es drin. Dummerweise ist es auch noch in einem privaten Unicode-Bereich, sodass nicht einmal die Hoffnung besteht, dass sich ein relevanter Künstler dieses Zeichen als Künstlernamen zulegt. --Schnark 09:39, 19. Nov. 2010 (CET)Beantworten

Auch Hans-Adam (Begriffsklärung) ist sehr hartnäckig. Andim 17:25, 26. Nov. 2010 (CET)Beantworten

Ebenso merkwürdig: Unter ID 76 taucht heute der Artikel Dungkhurba Wangchug Trashi auf. Der war vor ein paar Wochen schon mal da, aber sicher nicht in den letzten geschätzten (Pi mal Daumen) zwei Wochen. Die letzte Bearbeitung des Artikels datiert allerdings auf den 11. September. Er scheint irgendwie eine Weile vom Skript übergangen worden zu sein. Gruß --HS13 22:05, 27. Nov. 2010 (CET)Beantworten

ID 170

Letzter Kommentar: vor 14 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Die Artikel:

sollten imho aus der Fehlerliste rausgenommen werden. M.E. sind die richtig. Gruß --Pelz 00:22, 5. Nov. 2010 (CET)Beantworten

Ok, eingebaut ins Skript. Kommen demnächst nicht mehr. -- sk 10:34, 14. Nov. 2010 (CET)Beantworten

Danke Stefan. Es gab noch einige weitere Änderungswünsche und Problemdiskussionen, die mittlerweile im Archiv 2010 gelandet sind. Kannst Du abschätzen, wann diese eingebaut werden könnten? Keine Hektik, ist ja trotz weniger als 10000 Fehlern noch genug zu tun. Gruß --HS13 17:23, 15. Nov. 2010 (CET)Beantworten

Weise mich einfach hier auf der Diskussion noch mal erneut auf das entsprechende Thema hin. Im Archiv kann man ja schlecht darüber diskutieren. Ich hab einige Fehler aus dem Archiv abgearbeitet, aber nicht alle. Ich kann dort aber schlecht "ok" schreiben, weil bei mir dort unter den überschriften der Bearbeitungsbutton fehlt. Sollte dir was auffallen, dann schreib es hier einfach erneut rein. -- sk 15:11, 17. Nov. 2010 (CET)Beantworten

Erstmals seit langer Zeit wieder unter 10.000 Fehler

Letzter Kommentar: vor 14 Jahren10 Kommentare6 Personen sind an der Diskussion beteiligt

--Ephraim33 11:21, 9. Nov. 2010 (CET)Beantworten

Das können wir sicher ganz schnell ändern: Alle Artikel mit Personenkats einbauen, die kein Defsort bzw. Sortierung haben.... --Pelz 20:35, 15. Nov. 2010 (CET)Beantworten

Dafür haben wir doch den Fehler 242 "Kategoriensortierung fehlt", Andim 21:22, 15. Nov. 2010 (CET)Beantworten

Ich glaube einfach nicht, dass wir nur (aktuell) 4 Personenarktikel haben, die keinen Defsort haben. Ich schätze die Anzahl wohl auf >30.000. Es wäre zu schön, wenn ich mich gewaltig irren würde. Gruß --Pelz 22:06, 15. Nov. 2010 (CET)Beantworten

Eine ähnliche Diskussion wurde schon mal angerissen. Siehe hier. Gruß --HS13 22:58, 15. Nov. 2010 (CET)Beantworten

Meiner Meinung nach braucht nicht jeder Personenartikel ein DEFAULTSORT, sondern nur die Artikel, die in NAME ein Komma haben und nicht in jeder Kategorie durch "|" einsortiert werden, und dies wird im Fehler 242 überprüft. Andim 23:03, 15. Nov. 2010 (CET)Beantworten

Erst mal vielen Dank an alle Helfer, dass die tausenden Probleme in den Personendaten behoben wurden. Ich denke mal wir werden die Liste nie wirklich vollständig auf null bekommen, da wir ja auch täglich neue Artikel hinzubekommen. Deswegen hab ich ja auch diese Tool gestrickt, weil uns diese Probleme auch in Zukunft ja treffen werden. Der derzeitige Tiefstand des Zählers hat drei Ursachen. Erstens natürlich die unermüdliche Abarbeitung durch euch. Zweitens das es derzeit hier keine neuen Dumps gibt und drittens ich einen Umzug hinter mir habe bei dem ich fast 2 Monate keinen Internetzugang hatte. Dank Förderverein Bürgernetz Dresden e.V. bin ich jetzt wieder online und hab am Wochenende mal ein paar alte Dinge aus dem Archive abgearbeitet. Wenn euch also was auf den Nägeln brennt haut es hier einfach noch mal in der Diskussion erneut rein. Hab es nicht absichtlich unterschlagen. -- sk 11:12, 16. Nov. 2010 (CET)Beantworten

Ja, auch von mir mal Dank an die Helfer! Ich kann sagen, dass ich inzwischen viele Personendatenbanken gesehen habe und inzwischen hat die Wikipedia eine der qualitativ hochwertigsten Datenbanken. --APPER\^☺☹ 17:33, 17. Nov. 2010 (CET)Beantworten

Ich möchte nochmal auf meine Bemerkung mit den fehlenden Sortierungen zurückkommen. Bei meiner Abarbeitung fallen mir immer wieder Artikel ohne Kat-Sortierung auf, die durchaus eine gebrauchen könnten (Name, Vorname) aber nicht in ID 242 gelistet waren. Wenn es nicht zuviel Mühe macht, könnte Stefan vielleicht mal nur so zur Probe einen entsprechenden Test mit Artikel machen, die Personenkats habe und wo Name Komma Vorname vorhanden sind. Da bin ich mal sehr gespannt, was dabei rauskommt. --Pelz 21:49, 30. Dez. 2010 (CET)Beantworten

Kannst Du bitte mal ein Beispiel nennen, mich interessiert, warum dies nicht durch Fehler 242 abgefangen wird. Andim 22:02, 30. Dez. 2010 (CET)Beantworten

Neuer Vorschlag: Nationalität in Beschreibung, aber keine entsprechende Kategorie

Letzter Kommentar: vor 14 Jahren26 Kommentare3 Personen sind an der Diskussion beteiligt

Ein neuer Vorschlag: KURZBESCHREIBUNG beginnt mit einer Nationalität, aber keine entsprechende Kategorie ist vorhanden. Dies ist etwas komplizierter zu programmieren, da z.B. bei einer Kurzbeschreibung mit "deutsch" in den Kategorien nach "Deutscher" oder "Deutschland" gesucht werden muss. Wenn Du den Fehler implementieren willst, kann ich Dir eine Liste mit den Adjektiven und entsprechenden Ländern erstellen. Andim 21:34, 15. Nov. 2010 (CET)Beantworten

Oje, das ist sicherlich ein ganz heißes Eisen was du dort ausgräbst. Willst du das wirklich? ;-) Generell gebe ich dir recht. So sollte es sein, aber dann hab ich wieder das praktisch/technische vor Augen. War Nikolaus Kopernikus Pole? Und wie filtere ich die Kategorie:Sportler (Dresden) und ähnliche ordentlich heraus. Eine statische Liste ist blöd, da auf Dauer fehlerträchtig. Ist jeder "Sportler (Dresden)" ein Deutscher? Oder gibt es vielleicht einen Vietnamesen/Kongolesen/... der bei Dynamo Dresden spielt? Wie gesagt ganz heißes Eisen was du da ausbuddelst. Bin gespannt auf weitere Anmerkungen dazu. -- sk 11:21, 16. Nov. 2010 (CET)Beantworten

Vielleicht sollten wir erstmal die letzten 1000 von Kurzbeschreibung ohne Nationalität abarbeiten. Dort sind noch viele Tretminen. -- sk 11:24, 16. Nov. 2010 (CET)Beantworten

Anmerkungen kann ich geben ;). Wenn möglich sollen alle Personen in einer Unterkategorie von Kategorie:Person nach Staatsangehörigkeit stehen, insofern ist die Thematik der Unterkategorien recht unproblematisch. Bei Sportlern ist es z.B. bis auf Japaner so, dass diese sich innerhalb der Nationalitätenkategorien befinden (also zumindest sowas wie "Tennisspieler (Deutschland)"), da diese ja nur für das Land antreten können, deren Nationalität sie haben. Bei Politikern wiederum ist es andersrum: die tauchen nicht unterhalb der Nationalitätenkategorien auf.

Was du aber korrekt erwähnst: wie handhabt man das mit Nikolaus Kopernikus? Der ist nichtmal so problematisch, der ist in den Kategorien Pole und Deutscher. Aber es gibt vor allem bei alten Personen echte Probleme. Ist ein sächsischer Herzog von 1200 "Deutscher"? Bei den Serben/Jugoslawen etc. wirds nochmal komplizierter. Oder "schlesischer ..." oder "jiddischer ...".

Trotzdem ist das ein echtes Problem. Ich gehe immer mal wieder einzelne Geburtstage oder Nationalitäten durch und ergänze großflächig, aber es gibt noch einige Lücken. Meine Personensuche zeigt ja die Nationalitäten an, es ist daher recht einfach, darüber fehlende Zuordnungen zu finden. Beispiel: hessische Politiker. Unabhängig davon, dass man sagen könnte "hessischer Politiker" ist keine gute Kurzbeschreibung, weil die Nationalität rein soll (was ich nicht finde), ist klar, dass die Kategorie:Deutscher rein soll, fast alle sind auch nach 1800 geboren, wo sowas okay ist. Die entsprechende Suche zeigt, dass am Anfang ziemlich viele Personen die Zuordnung haben (weil ich das letztens mal gemacht habe). Guckt man sich aber die nach 1916 an, sieht man, dass gefühlten 90% die Kategorie fehlt. Da gibt es ohne Ende zu tun.

Ich bin nicht unbedingt der Meinung, dass du dir da großen Programmieraufwand aufladen musst, da man mit meiner Personensuche jederzeit hunderte solcher Edits machen kann. Natürlich habe ich nirgends eine "Liste fehlender Nationalitätenzuordnungen" und eine vollständige Fehlerzahl in deinem Tool ist auch was gutes. Insofern: nötig ist es, aber man muss aufpassen. Ich denke aber z.B. für nach-1900-geborene ist das eine machbare Sache, davor zumindest schwierig bzw. sehr abhängig vom Land. --APPER\^☺☹ 22:53, 16. Nov. 2010 (CET)Beantworten

Kopernikus ist bei meinem Vorschlag kein Problem, da die Kurzbeschreibung nur "Astronom" lautet. Mein Vorschlag bezieht sich nur auf Personen, bei denen das erste Wort in der Kurzbeschreibung ein Nationaladjektiv ist, also z.B. deutscher Maler, Schweizer Mathematiker, u.s.w, also kein hessischer Politiker. Jene Personen sollten also eine Kategorie haben, die "deutsch" oder "Deutschland" bzw. "Schweizer" oder "Schweiz" enthält. Mein Vorschlag bezieht sich also nur auf die einfachen Fällen. Normalerweise sollte ein Dresdner Sportler beispielsweise die Kurzbeschreibung "deutscher Fußballspieler" haben, dann gehört er aber auch in die Kategorie "Fußballspieler (Deutschland)", also müsstest Du nicht filtern. So wie ich mir das vorstelle, brauchst Du eine Liste mit den Nationaladjektiven und den dazugehörigen Ländern, wenn das erste Wort in der Kurzbeschreibung ein Nationaladjektiv ist, prüfst Du ob in den Kategorien dieses Adjektiv oder das entsprechende Land vorkommt, falls nicht wird ein Fehler ausgegeben. Andim 00:04, 17. Nov. 2010 (CET)Beantworten

Ok, ich probier das mal aus. -- sk 09:09, 17. Nov. 2010 (CET)Beantworten

Eine Liste der Adjektive und Staaten gibt es unter Wikipedia:NK/S. Wenn Du mir sagst, in welchem Format Du die Daten haben willst, kann ich sie Dir erstellen. Andim 10:06, 17. Nov. 2010 (CET)Beantworten

Ok, ich hab das eingebaut. Lass es nachher gleich mal durchlaufen. Die Form in der ich es brauche sieht so aus:

					# zuerst das Suchwort für die Kurzbeschreibung, dann alle Wörter die möglicherweise in den Kategorien auftauchen
					$i++; $array_land[$i] = 'dänisch, Däne, Dänin, Dänemark';
					$i++; $array_land[$i] = 'deutsch, Deutscher, Deutschland, DDR';
					$i++; $array_land[$i] = 'französisch, Franzose, Frankreich';
					$i++; $array_land[$i] = 'nigerianisch, Nigerianer, Nigeria';
					$i++; $array_land[$i] = 'polnisch, Pole, Polen';
					$i++; $array_land[$i] = 'niederländisch, Niederländer, Niederlande';
					$i++; $array_land[$i] = 'Schweizer, Schweiz, schweizerisch';
					$i++; $array_land[$i] = 'schweizerisch, Schweiz, Schweizer';
					$i++; $array_land[$i] = 'ungarisch, Ungar, Ungarn';
					$i++; $array_land[$i] = 'US-amerikanisch, US-Amerikaner, USA, Vereinigte Staaten';

Dadurch findet man dann fix Leute wie Arno Faust oder Alba Rohrwacher. @Admin, wäre hilfreich, wenn du mir die Liste hier vervollständigst. Danke im Vorraus! -- sk 10:28, 17. Nov. 2010 (CET)Beantworten

Eingebaut (268). Warte nun auf mehr Suchwörter. -- sk 10:41, 17. Nov. 2010 (CET)Beantworten

Ich habe bei "deutsch" mal DDR eingefügt, da alle Sportler (DDR) automatisch in der Kategorie:Deutscher sind. --APPER\^☺☹ 17:34, 17. Nov. 2010 (CET)Beantworten

Ergänzung: das sind echt viele, also ohne die Ausfilterung von DDR gibts da viele Falschmeldungen. Kannst du übrigens auf der Ergebnisseite wie [1] die Gesamtanzahl anzeigen? --APPER\^☺☹ 17:35, 17. Nov. 2010 (CET)Beantworten

Hm, es wird kompliziert. Da du nicht den Kategorienbaum nimmst, sondern nach bestimmten Wörtern guckst, sind die Vorschläge nicht ganz korrekt. Z.B. sollten alle in der Kategorie:Politiker (Deutschland) angezeigt werden, werden sie aber derzeit nicht. Wie erwähnt, ist "Politiker (Deutschland)" nicht ausreichend für eine Nationalitätenzuordnung. Das einfachste wäre: es werden alle Personen angezeigt, die ein entsprechendes Wort haben ("deutsch", "US-amerikanisch"), aber in keiner der Unterkategorien der Kategorie:Person nach Staatsangehörigkeit sind. Eine Liste aller Unterkategorien erstelle ich wöchentlich und ist auf dem Toolserver in /home/apper/pd_update/country_categories.php zu finden (PHP-Format, aber das sollte leicht einlesbar sein). --APPER\^☺☹ 17:44, 17. Nov. 2010 (CET)Beantworten

Ok, dann hatte ich das falsch verstanden. Ich dachte Kategorie:Politiker (Deutschland) ist eine Nationalitätenzuordnung. Du möchtest also das bei jedem der "Kategorie:Politiker (Deutschland)" auch die "Kategorie:Deutscher" drin steht. Oder anders gesagt, jeder muss mindestens einer Kategorie aus Kategorie:Person nach Staatsangehörigkeit haben. Ich hatte oben das mit der "Kategorie:Fußballer (Deutschland)" eben so verstanden, dass das ausreicht zu Nationaltitätsbestimmung. Bevor ich jetzt hier weitermache, muss das erstmal genau geklärt werden, damit ich da nicht doppelt arbeit reinstecke. -- sk 19:17, 17. Nov. 2010 (CET)Beantworten

Fast. Es ist eben viel komplizierter ;). Nicht jeder muss direkt in einer Unterkategorie von Kategorie:Person nach Staatsangehörigkeit stehen, also nicht bei jedem muss "Kategorie:Deutscher" drinstehen, es reicht, wenn er in einer Unterkategorie davon steht. Kategorie:Fußballspieler (Deutschland) ist in der Kategorie:Sportler (Deutschland), die in der Kategorie:Deutscher ist. Deshalb muss bei allen, die in der Kategorie:Fußballspieler (Deutschland) sind nichts getan werden. Dies betrifft größtenteils alle Sportler. Die, die aber in der Kategorie:Politiker (Deutschland) stehen, sind nicht in der Kategorie:Deutscher. Für Deutschland gesprochen: alle, die in keiner Unterkategorie von Kategorie:Deutscher sind, aber mit "deutsch*" anfangen, benötigen zusätzlich die Kategorie:Deutscher. Der viel einfachere Schritt wäre, die Kategorie:Politiker (Deutschland) mit der Kategorie:Deutscher zu versehen - aber da haben die Politik- und Kategorie-Experten viel drüber diskutiert und sind zu dem Schluss gekommen, dass das halt nicht zutrifft. Genauso wie es den Konsens gibt, dass "Sportler (Japan)" nicht in der Kategorie:Japaner ist. Wir stecken da nicht in der Materie sondern müssen uns einfach an die vorhandene Kategorienstruktur halten. Vor allem ist es halt nicht möglich, sofort am Kategoriennamen zu sehen, ob jemand eine Nationalitätenkategorie hat oder nicht. Z.B. ist auch die Kategorie:Mitglied einer Sportfördergruppe der deutschen Polizei direkt unterhalb der Kategorie:Deutscher - und dort muss nichts ergänzt werden. --APPER\^☺☹ 14:36, 19. Nov. 2010 (CET)Beantworten

Hier mal die erstmal vollständige Liste:

$i++;$array_land[$i] = 'afghanisch, afghanisch, Afghane, Afghanistan';
$i++;$array_land[$i] = 'ägyptisch, ägyptisch, Ägypter, Ägypten';
$i++;$array_land[$i] = 'albanisch, albanisch, Albaner, Albanien';
$i++;$array_land[$i] = 'algerisch, algerisch, Algerier, Algerien';
$i++;$array_land[$i] = 'andorranisch, andorranisch, Andorraner, Andorra';
$i++;$array_land[$i] = 'angolanisch, angolanisch, Angolaner, Angola';
$i++;$array_land[$i] = 'antiguanisch, antiguanisch, Antiguaner, Antigua';
$i++;$array_land[$i] = 'äquatorialguineisch, äquatorialguineisch, Äquatorialguineer, Äquatorialguinea';
$i++;$array_land[$i] = 'argentinisch, argentinisch, Argentinier, Argentinien';
$i++;$array_land[$i] = 'armenisch, armenisch, Armenier, Armenien';
$i++;$array_land[$i] = 'aserbaidschanisch, aserbaidschanisch, Aserbaidschaner, Aserbaidschan';
$i++;$array_land[$i] = 'äthiopisch, äthiopisch, Äthiopier, Äthiopien';
$i++;$array_land[$i] = 'australisch, australisch, Australier, Australien';
$i++;$array_land[$i] = 'bahamaisch, bahamaisch, Bahamaer, Bahamas';
$i++;$array_land[$i] = 'bahrainisch, bahrainisch, Bahrainer, Bahrain';
$i++;$array_land[$i] = 'bangladeschisch, bangladeschisch, Bangladescher, Bangladesch';
$i++;$array_land[$i] = 'barbadisch, barbadisch, Barbadier, Barbados';
$i++;$array_land[$i] = 'belarussisch, belarussisch, Weißrusse, Weißrussland';
$i++;$array_land[$i] = 'weißrussisch, weißrussisch, Weißrusse, Weißrussland';
$i++;$array_land[$i] = 'belgisch, belgisch, Belgier, Belgien';
$i++;$array_land[$i] = 'belizisch, belizisch, Belizer, Belize';
$i++;$array_land[$i] = 'beninisch, beninisch, Beniner, Benin';
$i++;$array_land[$i] = 'bhutanisch, bhutanisch, Bhutaner, Bhutan';
$i++;$array_land[$i] = 'bolivianisch, bolivianisch, Bolivianer, Bolivien';
$i++;$array_land[$i] = 'bosnisch, bosnisch, Bosnier, Bosnien';
$i++;$array_land[$i] = 'bosnisch-herzegowinisch, bosnisch-herzegowinisch, Bosnier, Bosnien';
$i++;$array_land[$i] = 'botsuanisch, botsuanisch, Botsuaner, Botswana';
$i++;$array_land[$i] = 'brasilianisch, brasilianisch, Brasilianer, Brasilien';
$i++;$array_land[$i] = 'bruneiisch, bruneiisch, Bruneier, Brunei';
$i++;$array_land[$i] = 'bulgarisch, bulgarisch, Bulgare, Bulgarien';
$i++;$array_land[$i] = 'burkinisch, burkinisch, Burkiner, Burkina';
$i++;$array_land[$i] = 'burundisch, burundisch, Burundier, Burundi';
$i++;$array_land[$i] = 'chilenisch, chilenisch, Chilene, Chile';
$i++;$array_land[$i] = 'chinesisch, chinesisch, Chinese, China';
$i++;$array_land[$i] = 'costa-ricanisch, costa-ricanisch, Costa-Ricaner, Costa Rica';
$i++;$array_land[$i] = 'dänisch, dänisch, Däne, Dänemark';
$i++;$array_land[$i] = 'deutsch, deutsch, Deutscher, Deutschland, DDR';
$i++;$array_land[$i] = 'dominicanisch, dominicanisch, Dominicaner, Dominica';
$i++;$array_land[$i] = 'dschibutisch, dschibutisch, Dschibutier, Dominikanische';
$i++;$array_land[$i] = 'ecuadorianisch, ecuadorianisch, Ecuadorianer, Ecuador';
$i++;$array_land[$i] = 'ivorisch, ivorisch, Ivorer, Elfenbeinküste';
$i++;$array_land[$i] = 'salvadorianisch, salvadorianisch, Salvadorianer, Salvador';
$i++;$array_land[$i] = 'eritreisch, eritreisch, Eritreer, Eritrea';
$i++;$array_land[$i] = 'estnisch, estnisch, Este, Estland';
$i++;$array_land[$i] = 'fidschianisch, fidschianisch, Fidschianer, Fidschi';
$i++;$array_land[$i] = 'finnisch, finnisch, Finne, Finnland';
$i++;$array_land[$i] = 'französisch, französisch, Franzose, Frankreich';
$i++;$array_land[$i] = 'gabunisch, gabunisch, Gabuner, Gabun';
$i++;$array_land[$i] = 'gambisch, gambisch, Gambier, Gambia';
$i++;$array_land[$i] = 'georgisch, georgisch, Georgier, Georgien';
$i++;$array_land[$i] = 'ghanaisch, ghanaisch, Ghanaer, Ghana';
$i++;$array_land[$i] = 'grenadisch, grenadisch, Grenader, Grenada';
$i++;$array_land[$i] = 'griechisch, griechisch, Grieche, Griechenland';
$i++;$array_land[$i] = 'guatemaltekisch, guatemaltekisch, Guatemalteke, Guatemala';
$i++;$array_land[$i] = 'guineisch, guineisch, Guineer, Guinea';
$i++;$array_land[$i] = 'guinea-bissauisch, guinea-bissauisch, Guinea-Bissauer, Guinea-Bissau';
$i++;$array_land[$i] = 'guyanisch, guyanisch, Guyaner, Guyana';
$i++;$array_land[$i] = 'haitianisch, haitianisch, Haitianer, Haiti';
$i++;$array_land[$i] = 'honduranisch, honduranisch, Honduraner, Honduras';
$i++;$array_land[$i] = 'indisch, indisch, Inder, Indien';
$i++;$array_land[$i] = 'indonesisch, indonesisch, Indonesier, Indonesien';
$i++;$array_land[$i] = 'irakisch, irakisch, Iraker, Irak';
$i++;$array_land[$i] = 'iranisch, iranisch, Iraner, Iran';
$i++;$array_land[$i] = 'irisch, irisch, Ire, Irland';
$i++;$array_land[$i] = 'isländisch, isländisch, Isländer, Island';
$i++;$array_land[$i] = 'israelisch, israelisch, Israeli, Israel';
$i++;$array_land[$i] = 'italienisch, italienisch, Italiener, Italien';
$i++;$array_land[$i] = 'jamaikanisch, jamaikanisch, Jamaikaner, Jamaika';
$i++;$array_land[$i] = 'japanisch, japanisch, Japaner, Japan';
$i++;$array_land[$i] = 'jemenitisch, jemenitisch, Jemenit, Jemen';
$i++;$array_land[$i] = 'jordanisch, jordanisch, Jordanier, Jordanien';
$i++;$array_land[$i] = 'kambodschanisch, kambodschanisch, Kambodschaner, Kambodscha';
$i++;$array_land[$i] = 'kamerunisch, kamerunisch, Kameruner, Kamerun';
$i++;$array_land[$i] = 'kanadisch, kanadisch, Kanadier, Kanada';
$i++;$array_land[$i] = 'kap-verdisch, kap-verdisch, Kap-Verdier, Kap Verde';
$i++;$array_land[$i] = 'kasachisch, kasachisch, Kasache, Kasachstan';
$i++;$array_land[$i] = 'katarisch, katarisch, Katarer, Katar';
$i++;$array_land[$i] = 'kenianisch, kenianisch, Kenianer, Kenia';
$i++;$array_land[$i] = 'kirgisisch, kirgisisch, Kirgise, Kirgisien';
$i++;$array_land[$i] = 'kiribatisch, kiribatisch, Kiribatier, Kiribati';
$i++;$array_land[$i] = 'kolumbianisch, kolumbianisch, Kolumbianer, Kolumbien';
$i++;$array_land[$i] = 'komorisch, komorisch, Komorer, Komoren';
$i++;$array_land[$i] = 'kongolesisch, kongolesisch, Kongolese, Kongo';
$i++;$array_land[$i] = 'koreanisch, koreanisch, Koreaner, Nordkoreaner, Südkoreaner, Nordkorea, Südkorea, Korea';
$i++;$array_land[$i] = 'nordkoreanisch, nordkoreanisch, Koreaner, Nordkoreaner, Korea, Nordkorea';
$i++;$array_land[$i] = 'südkoreanisch, südkoreanisch, Koreaner, Nordkoreaner, Korea, Südkorea';
$i++;$array_land[$i] = 'nord-koreanisch, nord-koreanisch, Koreaner, Nordkoreaner, Korea, Nordkorea';
$i++;$array_land[$i] = 'süd-koreanisch, süd-koreanisch, Koreaner, Nordkoreaner, Korea, Südkorea';
$i++;$array_land[$i] = 'kosovarisch, kosovarisch, Kosovare, Kosovo';
$i++;$array_land[$i] = 'kroatisch, kroatisch, Kroate, Kroatien';
$i++;$array_land[$i] = 'kubanisch, kubanisch, Kubaner, Kuba';
$i++;$array_land[$i] = 'kuwaitisch, kuwaitisch, Kuwaiter, Kuwait';
$i++;$array_land[$i] = 'laotisch, laotisch, Laote, Laos';
$i++;$array_land[$i] = 'lesothisch, lesothisch, Lesother, Lesotho';
$i++;$array_land[$i] = 'lettisch, lettisch, Lette, Lettland';
$i++;$array_land[$i] = 'libanesisch, libanesisch, Libanese, Libanon';
$i++;$array_land[$i] = 'liberianisch, liberianisch, Liberianer, Liberia';
$i++;$array_land[$i] = 'libysch, libysch, Libyer, Libyen';
$i++;$array_land[$i] = 'liechtensteinisch, liechtensteinisch, Liechtensteiner, Liechtenstein';
$i++;$array_land[$i] = 'Liechtensteiner, Liechtensteiner, Liechtenstein';
$i++;$array_land[$i] = 'litauisch, litauisch, Litauer, Litauen';
$i++;$array_land[$i] = 'luxemburgisch, luxemburgisch, Luxemburger, Luxemburg';
$i++;$array_land[$i] = 'Luxemburger, Luxemburger, Luxemburg';
$i++;$array_land[$i] = 'madagassisch, madagassisch, Madagasse, Madagaskar';
$i++;$array_land[$i] = 'malawisch, malawisch, Malawier, Malawi';
$i++;$array_land[$i] = 'malaysisch, malaysisch, Malaysier, Malaysia';
$i++;$array_land[$i] = 'maledivisch, maledivisch, Malediver, Malediven';
$i++;$array_land[$i] = 'malisch, malisch, Malier, Mali';
$i++;$array_land[$i] = 'maltesisch, maltesisch, Malteser, Malta';
$i++;$array_land[$i] = 'marokkanisch, marokkanisch, Marokkaner, Marokko';
$i++;$array_land[$i] = 'marshallisch, marshallisch, Marshaller, Marshall';
$i++;$array_land[$i] = 'mauretanisch, mauretanisch, Mauretanier, Mauretanien';
$i++;$array_land[$i] = 'mauritisch, mauritisch, Mauritier, Mauritius';
$i++;$array_land[$i] = 'mazedonisch, mazedonisch, Mazedonier, Mazedonien';
$i++;$array_land[$i] = 'mexikanisch, mexikanisch, Mexikaner, Mexiko';
$i++;$array_land[$i] = 'mikronesisch, mikronesisch, Mikronesier, Mikronesien';
$i++;$array_land[$i] = 'moldauisch, moldauisch, Moldawier, Moldawien';
$i++;$array_land[$i] = 'moldawisch, moldawisch, Moldawier, Moldawien';
$i++;$array_land[$i] = 'monegassisch, monegassisch, Monegasse, Monaco';
$i++;$array_land[$i] = 'mongolisch, mongolisch, Mongole, Mongolei';
$i++;$array_land[$i] = 'montenegrinisch, montenegrinisch, Montenegriner, Montenegro';
$i++;$array_land[$i] = 'mosambikanisch, mosambikanisch, Mosambikaner, Mosambik';
$i++;$array_land[$i] = 'myanmarisch, myanmarisch, Myanmare, Myanmar, Birma, Burma';
$i++;$array_land[$i] = 'birmanisch, birmanisch, Myanmare, Myanmar, Birma, Burma';
$i++;$array_land[$i] = 'burmesisch, burmesisch, Myanmare, Myanmar, Birma, Burma';
$i++;$array_land[$i] = 'namibisch, namibisch, Namibier, Namibia';
$i++;$array_land[$i] = 'nauruisch, nauruisch, Nauruer, Nauru';
$i++;$array_land[$i] = 'nepalesisch, nepalesisch, Nepalese, Nepal';
$i++;$array_land[$i] = 'neuseeländisch, neuseeländisch, Neuseeländer, Neuseeland';
$i++;$array_land[$i] = 'nicaraguanisch, nicaraguanisch, Nicaraguaner, Nicaragua';
$i++;$array_land[$i] = 'niederländisch, niederländisch, Niederländer, Niederlande';
$i++;$array_land[$i] = 'nigrisch, nigrisch, Nigrer, Niger';
$i++;$array_land[$i] = 'nigerianisch, nigerianisch, Nigerianer, Nigeria';
$i++;$array_land[$i] = 'niueanisch, niueanisch, Niueaner, Niue';
$i++;$array_land[$i] = 'norwegisch, norwegisch, Norweger, Norwegen';
$i++;$array_land[$i] = 'omanisch, omanisch, Omaner, Oman';
$i++;$array_land[$i] = 'österreichisch, österreichisch, Österreicher, Österreich';
$i++;$array_land[$i] = 'osttimoresisch, osttimoresisch, Osttimorese, Osttimor';
$i++;$array_land[$i] = 'pakistanisch, pakistanisch, Pakistaner, Pakistan';
$i++;$array_land[$i] = 'palauisch, palauisch, Palauer, Palau';
$i++;$array_land[$i] = 'panamaisch, panamaisch, Panamaer, Panama';
$i++;$array_land[$i] = 'papua-neuguineisch, papua-neuguineisch, Papua-Neuguineer, Papua-Neuguinea';
$i++;$array_land[$i] = 'paraguayisch, paraguayisch, Paraguayer, Paraguay';
$i++;$array_land[$i] = 'peruanisch, peruanisch, Peruaner, Peru';
$i++;$array_land[$i] = 'philippinisch, philippinisch, Philippiner, Philippinen';
$i++;$array_land[$i] = 'polnisch, polnisch, Pole, Polen';
$i++;$array_land[$i] = 'portugiesisch, portugiesisch, Portugiese, Portugal';
$i++;$array_land[$i] = 'ruandisch, ruandisch, Ruander, Ruanda';
$i++;$array_land[$i] = 'rumänisch, rumänisch, Rumäne, Rumänien';
$i++;$array_land[$i] = 'russisch, russisch, Russe, Russland';
$i++;$array_land[$i] = 'salomonisch, salomonisch, Salomoner, Salomonen';
$i++;$array_land[$i] = 'sambisch, sambisch, Sambier, Sambia';
$i++;$array_land[$i] = 'samoanisch, samoanisch, Samoaner, Samoa';
$i++;$array_land[$i] = 'san-marinesisch, san-marinesisch, San-Marinese, San Marino';
$i++;$array_land[$i] = 'são-toméisch, são-toméisch, São-Toméer, São Tomé';
$i++;$array_land[$i] = 'saudi-arabisch, saudi-arabisch, Saudi-Arabier, Saudi-Arabien';
$i++;$array_land[$i] = 'schwedisch, schwedisch, Schwede, Schweden';
$i++;$array_land[$i] = 'Schweizer, Schweizer, Schweiz';
$i++;$array_land[$i] = 'schweizerisch, schweizerisch, Schweizer, Schweiz';
$i++;$array_land[$i] = 'senegalesisch, senegalesisch, Senegalese, Senegal';
$i++;$array_land[$i] = 'serbisch, serbisch, Serbe, Serbien';
$i++;$array_land[$i] = 'seychellisch, seychellisch, Seycheller, Seychellen';
$i++;$array_land[$i] = 'sierra-leonisch, sierra-leonisch, Sierra-Leoner, Sierra Leone';
$i++;$array_land[$i] = 'simbabwisch, simbabwisch, Simbabwer, Simbabwe';
$i++;$array_land[$i] = 'singapurisch, singapurisch, Singapurer, Singapur';
$i++;$array_land[$i] = 'slowakisch, slowakisch, Slowake, Slowakei';
$i++;$array_land[$i] = 'slowenisch, slowenisch, Slowene, Slowenien';
$i++;$array_land[$i] = 'somalisch, somalisch, Somalier, Somalia';
$i++;$array_land[$i] = 'spanisch, spanisch, Spanier, Spanien';
$i++;$array_land[$i] = 'sri-lankisch, sri-lankisch, Sri-Lanker, Sri Lanka';
$i++;$array_land[$i] = 'lucianisch, lucianisch, Lucianer, Lucia';
$i++;$array_land[$i] = 'vincentisch, vincentisch, Vincenter, Vincent';
$i++;$array_land[$i] = 'südafrikanisch, südafrikanisch, Südafrikaner, Südafrika';
$i++;$array_land[$i] = 'sudanesisch, sudanesisch, Sudanese, Sudan';
$i++;$array_land[$i] = 'surinamisch, surinamisch, Surinamer, Surinam';
$i++;$array_land[$i] = 'swasiländisch, swasiländisch, Swasi, Swasiland';
$i++;$array_land[$i] = 'syrisch, syrisch, Syrer, Syrien';
$i++;$array_land[$i] = 'tadschikisch, tadschikisch, Tadschike, Tadschikistan';
$i++;$array_land[$i] = 'taiwanisch, taiwanisch, Taiwaner, Taiwan';
$i++;$array_land[$i] = 'tansanisch, tansanisch, Tansanier, Tansania';
$i++;$array_land[$i] = 'thailändisch, thailändisch, Thailänder, Thailand';
$i++;$array_land[$i] = 'togoisch, togoisch, Togoer, Togo';
$i++;$array_land[$i] = 'tongaisch, tongaisch, Tongaer, Tonga';
$i++;$array_land[$i] = 'tschadisch, tschadisch, Tschader, Tschad';
$i++;$array_land[$i] = 'tschechisch, tschechisch, Tscheche, Tschechien';
$i++;$array_land[$i] = 'tunesisch, tunesisch, Tunesier, Tunesien';
$i++;$array_land[$i] = 'türkisch, türkisch, Türke, Türkei';
$i++;$array_land[$i] = 'turkmenisch, turkmenisch, Turkmene, Turkmenistan';
$i++;$array_land[$i] = 'tuvaluisch, tuvaluisch, Tuvaluer, Tuvalu';
$i++;$array_land[$i] = 'ugandisch, ugandisch, Ugander, Uganda';
$i++;$array_land[$i] = 'ukrainisch, ukrainisch, Ukrainer, Ukraine';
$i++;$array_land[$i] = 'ungarisch, ungarisch, Ungar, Ungarn';
$i++;$array_land[$i] = 'uruguayisch, uruguayisch, Uruguayer, Uruguay';
$i++;$array_land[$i] = 'usbekisch, usbekisch, Usbeke, Usbekistan';
$i++;$array_land[$i] = 'vanuatuisch, vanuatuisch, Vanuatuer, Vanuatu';
$i++;$array_land[$i] = 'vatikanisch, vatikanisch, Vatikan';
$i++;$array_land[$i] = 'venezolanisch, venezolanisch, Venezolaner, Venezuela';
$i++;$array_land[$i] = 'US-amerikanisch, US-amerikanisch, US-Amerikaner, USA, Vereinigte Staaten';
$i++;$array_land[$i] = 'britisch, britisch, Brite, Großbritannien, England, Britannien';
$i++;$array_land[$i] = 'vietnamesisch, vietnamesisch, Vietnamese, Vietnam';
$i++;$array_land[$i] = 'saharauisch, saharauisch, Sahraui, Sahara, Westsahara';
$i++;$array_land[$i] = 'zentralafrikanisch, zentralafrikanisch, Zentralafrikaner, Zentralafrikanische';
$i++;$array_land[$i] = 'zyprisch, zyprisch, Zyprer, Zypern';
$i++;$array_land[$i] = 'zypriotisch, zypriotisch, Zyprer, Zypern';
$i++;$array_land[$i] = 'amerikanisch, amerikanisch, Amerikaner, US-amerikanisch, Amerika, US-Amerikaner';
$i++;$array_land[$i] = 'englisch, englisch, Engländer, England';
$i++;$array_land[$i] = 'tschechoslowakisch, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei';
$i++;$array_land[$i] = 'schottisch, schottisch, Schotte, Schottland';
$i++;$array_land[$i] = 'nordirisch, nordirisch, Nordire, Nordirland';
$i++;$array_land[$i] = 'altägyptisch, ägyptisch, Ägypter, Ägypten';
$i++;$array_land[$i] = 'römisch, römisch, Römer, Rom';
$i++;$array_land[$i] = 'grönländisch, grönländisch, Grönländer, Grönland';
$i++;$array_land[$i] = 'sowjetisch, sowjetisch, Sowjetbürger, Sowjetunion';
$i++;$array_land[$i] = 'persisch, persisch, Perser, Persien, Iran, iranisch';
$i++;$array_land[$i] = 'jugoslawisch, jugoslawisch, Jugoslawe';
$i++;$array_land[$i] = 'holländisch, holländisch, Holländer, Holland, Niederlande, Niederländer, niederländisch';

Andim 22:39, 17. Nov. 2010 (CET)Beantworten

Ein weiterer Vorteil dieses Fehlers: bei Javier Suárez konnte ich dadurch eine falsche Kurzbeschreibung berichtigen. Andim 23:04, 17. Nov. 2010 (CET)Beantworten

Ein Fehler, der mir unterlaufen ist, es muss heißen:

$i++;$array_land[$i] = 'dschibutisch, dschibutisch, Dschibutier, Dschibuti';
$i++;$array_land[$i] = 'saudi-arabisch, saudi-arabisch, Saudi-Araber, Saudi-Arabien';
$i++;$array_land[$i] = 'britisch, britisch, Brite, Großbritannien, England, Britannien, Vereinigtes Königreich';
$i++;$array_land[$i] = 'iranisch, iranisch, Iraner, Iran, persisch, Perser, Persien';
$i++;$array_land[$i] = 'russisch, russisch, Russe, Russland, sowjetisch, Sowjetbürger, Sowjetunion';
$i++;$array_land[$i] = 'slowakisch, slowakisch, Slowake, Slowakei, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei';
$i++;$array_land[$i] = 'tschechisch, tschechisch, Tscheche, Tschechien, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei';
$i++;$array_land[$i] = 'amerikanisch, amerikanisch, Amerikaner, US-amerikanisch, Amerika, US-Amerikaner, Vereinigte Staaten';
$i++;$array_land[$i] = 'englisch, englisch, Engländer, England, Vereinigtes Königreich, britisch, Brite, Großbritannien';
$i++;$array_land[$i] = 'schottisch, schottisch, Schotte, Schottland, Vereinigtes Königreich, britisch, Brite, Großbritannien';
$i++;$array_land[$i] = 'nordirisch, nordirisch, Nordire, Nordirland, Vereinigtes Königreich, britisch, Brite, Großbritannien,';
$i++;$array_land[$i] = 'tschechoslowakisch, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei, tschechisch, Tscheche, Tschechien';
$i++;$array_land[$i] = 'sowjetisch, sowjetisch, Sowjetbürger, Sowjetunion, russisch, Russe, Russland';

Andim 10:04, 19. Nov. 2010 (CET)Beantworten

Ok, eingebaut. Spiele gerade das Skript nochmal durch. -- sk 13:24, 20. Nov. 2010 (CET)Beantworten

Bitte lies auch meine Hinweise weiter oben. Hier werden sehr viele "falsche Fehler" aufgelistet und die damit verbundenen Edits sind nicht nur unnötig sondern werden von den Chef-Kategorisierern auch als falsch angesehen (siehe Wikipedia:Kategorien: Grundsätzlich soll eine Seite nicht gleichzeitig in einer Kategorie und einer ihrer Ober- oder Unterkategorien eingeordnet werden.). Bei der Bearbeitung von PD-Fehlern müssen wir behutsam vorgehen, weil zuviel unnötige Bearbeitung dazu führt, dass das Ansehen des PD-Projekts sinkt.

Beispiel: Derzeit ist in der Liste John Barry (Filmkomponist) zu finden, weil er "britisch" ist. Er ist aber in der Kategorie "Englischer Komponist", die wiederum in der Kat:Britischer Komponist und diese in der Kategorie:Britischer Künstler ist - und diese in der Kat:Brite. Wenn jetzt jemand Kat:Brite hinzufügt, ist das ein unnötiger Edit und es widerspricht unseren Kategorisierungsregeln. --APPER\^☺☹ 13:48, 20. Nov. 2010 (CET)Beantworten

Da hilft

$i++;$array_land[$i] = 'britisch, britisch, Brite, Großbritannien, englisch, Engländer, England, Britannien, Vereinigtes Königreich, schottisch, Schotte, Schottland, nordirisch, Nordire, Nordirland, walisisch, Waliser, Wales';

, Andim 15:23, 20. Nov. 2010 (CET)Beantworten

D

Ok, eingebaut. -- sk 19:54, 20. Nov. 2010 (CET)Beantworten

Das kann ein sehr langes Spiel werden: Luis Lintner gehört z.B. nicht rein, weil Kategorie:Person (Südtirol) indirekt in Kategorie:Italiener ist. Gerd Schwandner ist indirekt über die Kategorie:Staatsrat (Bremen) schon in der Kat:Deutscher. Markus Baltensperger ist indirekt in der Kat:Deutscher über Kategorie:Musiker (Schleswig-Holstein). Ganz ehrlich: ich denke nicht, dass diese Fehlerkategorie ohne vollständige Kat-Liste machbar ist. Ist natürlich ein wenig Mehraufwand, aber wie schon erwähnt, liegt bei mir im Verzeichnis auf dem Toolserver eine entsprechende Liste. Die wird wöchentlich aktualisiert und wenn du willst, kann ich die dir in beliebiger Form ausgeben, damit du sie für diesen Fehler einlesen kannst. --APPER\^☺☹ 20:28, 20. Nov. 2010 (CET)Beantworten

Das ist ein guter Ansatz, es werden dadurch einerseits mehr Fehler gefunden, da bei meinem Ansatz zu viele Kategorien erfasst werden, andererseits auch falsche Fehler ausgeschlossen. Andim 21:20, 26. Nov. 2010 (CET)Beantworten

Ein weiterer Fehler:

 $i++;$array_land[$i] = 'kirgisisch, kirgisisch, Kirgise, Kirgisien, Kirgisistan';

Andim 21:17, 26. Nov. 2010 (CET)Beantworten

Ok, eingebaut. -- sk 21:12, 24. Dez. 2010 (CET)Beantworten

Eine für mich nicht erklärliche Beobachtung: Es werden einige Ägypter und Äthiopier aufgeführt: z.B. Ejigayehu Shibabaw, obwohl sie in der Kategorie Kategorie:Äthiopischer Musiker ist, oder Mohamed Mounir trotz Kategorie:Ägyptischer Musiker . Andim 11:51, 25. Dez. 2010 (CET)Beantworten

Alte Version

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Unter [2] erscheint die Startseite einer alten Version des Skriptes. In der Zip-Datei [3] ist im Unterverzeichnis home die aktuelle Version enthalten, im Unterverzeichnis pd findet sich noch eine alte Version, außerdem sind die txt-Dateien dort veraltet. Andim 22:14, 16. Nov. 2010 (CET)Beantworten

Die Startseite ist nicht alt, sondern soll mal die neue Werden, so wie bei Checkwikipedia soll alle 15 Minuten nur die Seite aktuallisiert werden. Dadurch würde seltener hoffentlich die Fehlermeldung "mehr als 15 Nutzer" kommen. Die Zip-Datei muss ich mal anpassen. -- sk 13:43, 17. Nov. 2010 (CET)Beantworten

ID 162

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Hier sollten Gustaf nagel und K.d. lang als Ausnahmen hinzugefügt werden. Andim 22:46, 16. Nov. 2010 (CET)Beantworten

Ok, eingebaut ins Skript. -- sk 10:32, 17. Nov. 2010 (CET)Beantworten

ID 119 und 120

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Hier sollte nur auf "Geboren im" gesucht werden, damit auch "Geboren im 1. oder 2. Jahrhundert" und "Geboren im 2. Jahrtausend" und "Geboren im 1. oder 2. Jahrtausend" erfasst werden. Andim 08:57, 17. Nov. 2010 (CET)Beantworten

Ok, im Skript eingebaut. -- sk 13:46, 17. Nov. 2010 (CET)Beantworten

ID 129 und 130

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Meiner Meinung nach ist 129 besser aufgebaut als 130, da in 129 mehr Fälle abgedeckt sind. Ich denke aber auch in 129 erwischt Du nicht alle Fälle, z.B. "Geboren 129" und "Geboren unbekannt". Besser wäre es, nur zu überprüfen, ob in den Kategorien zweimal "Geboren" bzw. "Gestorben" vorkommt. Andim 09:04, 17. Nov. 2010 (CET)Beantworten

Ok, im Skript eingebaut. -sk 13:53, 17. Nov. 2010 (CET)Beantworten

Datenfelder bestehen nur aus Leerzeichen

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Ich will nochmal auf meinen Vorschlag 3 in Wikipedia Diskussion:Personendaten/Wartung/Fehlerliste/Archiv/2010#Datenfelder nur mit Leerzeichen hinweisen. Andim 09:09, 17. Nov. 2010 (CET)Beantworten

Ok. Ich hab mal eingebaut das in Zukunft alle führenden und abschließenden Leerzeichen entfernt werden. Mal schauen ob beim nächsten Dumpscan dann einige leere Felder zum vorschein kommen. Ich hab keinen eigenen Fehler dafür angelegt, da die Felder ja so oder so schon alle einzeln überprüft werden, ob sie leer sind. -- sk 15:06, 17. Nov. 2010 (CET)Beantworten

Zeilenumbrüche in den PD

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Man könnte Fehler 233 erweitern. In den Personendaten sollen genau acht Zeilenumbrüche vorkommen. Andim 09:15, 17. Nov. 2010 (CET)Beantworten

Personendaten fehlen

Letzter Kommentar: vor 14 Jahren10 Kommentare4 Personen sind an der Diskussion beteiligt

Diese Rubrik ist schon seit Tagen leer, obwohl es genug (auch genug neue) Artikel gibt, die dort aufgelistet werden sollten. Wer Geduld mitbringt, kann mal die Liste abarbeiten, die Catscan liefert: [4] --Schnark 12:42, 18. Nov. 2010 (CET)Abfrage auskommentiert, Ergebnis: --Ephraim33 14:28, 18. Nov. 2010 (CET) Auskommentierung zurückgenommen. --Ephraim33 18:13, 21. Nov. 2010 (CET)Beantworten

Liste vom 18. November ist abgearbeitet.

Da die Liste zu erzeugen, bei mit erst erst beim xten Mal geklappt hat, stelle ich sie hierhin, damit nicht jeder die komplexe und zeitaufwändige Abfrage durchführen muss. --Ephraim33 14:28, 18. Nov. 2010 (CET)Beantworten

Hier eine neue Liste: --Ephraim33 18:13, 21. Nov. 2010 (CET)Beantworten

erledigt --Graphikus 16:40, 22. Nov. 2010 (CET)Beantworten

Neue Liste: --Schnark 11:53, 25. Nov. 2010 (CET)Beantworten

erledigt --Pelz 00:13, 26. Nov. 2010 (CET)Beantworten

Neue Daten: --Graphikus 18:23, 30. Nov. 2010 (CET)Beantworten

erledigt --Graphikus 17:16, 1. Dez. 2010 (CET)Beantworten

Neue Daten: --Schnark 12:08, 7. Dez. 2010 (CET)Beantworten

erledigt --Graphikus 18:29, 7. Dez. 2010 (CET)Beantworten

ID 175

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

In der Liste stehen heute die folgenden Namen: Yazdegerd III., Yazdegerd II. und Avraham Tehomi.

Alle haben bei den Alternativname am Anfang den Namen in Landesschrift. Die Fehlerabfrage "sieht" diese offenbar nicht. Gruß --Pelz 21:23, 18. Nov. 2010 (CET)Beantworten

Das Problem war, dass dort Sprachvorlagen verwendet wurden. Ich habe diese entfernt. Andim 23:05, 18. Nov. 2010 (CET)Beantworten

ID 265

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ephraim33 hatte schon mal angemerkt, dass ID265 nicht anspringen sollte, wenn ein Wort nur als Bestandteil anderer Wörter mehrmals auftaucht. Das betrifft den Großteil der angezeigten Artikel. Artikel wie Jerome K. Jerome und Hermann Friedrich Friedrich sollten als Ausnahmen hinzugefügt werden. --HS13 03:37, 22. Nov. 2010 (CET)Beantworten

Apostroph '

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ein Großteil der Artikel mit 3 oder mehr Verbesserungsvorschlägen besitzt ein ' im Namen und schlägt dann in IDs 202, 252 und 259 an, scheint aber nicht fehlerhaft zu sein. Eine kurze Diskussion dazu gab es mal, siehe Anmerkungen vom Umherirrenden und Pelz. Liegt's an dem '? --HS13 03:50, 22. Nov. 2010 (CET)Beantworten

ID 26 und 252

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Die Artikel Euphranor vom Isthmos, Aristoteles der Dialektiker, Homeros aus Byzantion, Aristokles aus Sikyon und Aristokles aus Kydonia können als Ausnahmen hinzugefügt werden. --HS13 03:59, 22. Nov. 2010 (CET)Beantworten

ID 144

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Der Artikel Augustin Jamund kann als Ausnahme hinzugefügt werden. --HS13 03:59, 22. Nov. 2010 (CET)Beantworten

Personendaten fehlen, aber Personenkategorien vorhanden

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Wie bei "Personendaten fehlen" gibt es hier seit einigen Tagen keine Einträge. Andim 08:42, 24. Nov. 2010 (CET)Beantworten

Ich hab den Fehler noch nicht gefunden. Das Skript läuft, aber aus irgendeinem Grund startet der Cronjob nicht. -- sk 17:42, 26. Nov. 2010 (CET)Beantworten

ID 155 Text ohne Geburts- oder Sterbedatum

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Ich habe eine Reihe von Fällen wie in Anatole France gefunden. Beide Daten sind richtig im Text und in den PD. Allerdings finde ich vor dem *: Anatole France (François Anatole Thibault; in Kursiv. Da scheint mir vielfach das Problem zu liegen. Es stellt sich die Frage, ob nach dem ; eine geschlossene Klammer und vor dem * ein öffnende Klammer eingefügt werden sollte um evtl. damit den Fehler zu umgehen. Besser wäre natürlich, wenn solch ein "Vorspann" vom Script gehändelt werden könnte. Gruß --Pelz 22:31, 29. Nov. 2010 (CET)Beantworten

Man sollte vielleicht auch "; *", ", *", "; *", ", *" erlauben. Andim 11:29, 18. Dez. 2010 (CET)Beantworten

ID 141 Text ohne Semikolon vor dem Sterbezeichen

Letzter Kommentar: vor 14 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Hier sind (überwiegend) Fälle gelistet, wo nur das Sterbe- aber nicht das Geburtsdatum bekannt ist. Vor dem † in diesen Fällen ein Semikolon zu setzten halte ich für überflüssig um nicht zu sagen für falsch. M.E. sollten hier nur die Fälle auftauchen, die vorher ein * haben. Gruß --Pelz 22:42, 29. Nov. 2010 (CET)Beantworten

Das Feld GEBURTSDATUM dürfte aber gefüllt sein (siehe Beschreibung), wenn der Artikel in der Liste auftaucht. Vielleicht sollten ungenaue GEBURTSDATUM (vor/nach/um) hier nicht beachtet werden. Der Umherirrende 18:28, 1. Dez. 2010 (CET)Beantworten

Meiner Meinung nach sollte doch aber im Einleitungstext das ungenaue Geburtsdatum stehen als XY (* vor 567; † 577) was aber z.B. bei Vitalian nicht so ist. Im schlimmsten Fall steht dort das Jahrhundert also XY (* 6. Jahrhundert; † 577). -- sk 15:13, 10. Dez. 2010 (CET)Beantworten

ID 267

Letzter Kommentar: vor 14 Jahren18 Kommentare6 Personen sind an der Diskussion beteiligt

Ich sehe keinen Fehler z.B. in Roger Federer, Stefan Edberg und Daniela Hantuchová. Allerdings sind das alles Tennisspieler. Brauche ich eine neue Brille? --Pelz 23:27, 2. Dez. 2010 (CET)Beantworten

Jetzt habe ich noch ein paar Tennisspieler in der Liste gesichtet. Spielt die Infobox dem Script hier einen Streich? --Pelz 23:38, 2. Dez. 2010 (CET)Beantworten

Ich glaube schon, das Skript sucht nach dem ersten fett geschriebenen Ausdruck, und das ist bei den Tennisspielern das "S" in der Infobox. Andim 08:22, 3. Dez. 2010 (CET)Beantworten

Eigentlich müsste hier die Vorlage der Tennisspieler angepasst werden, da die Formatierung niemals in den Daten abgelegt werden sollte. Ich werde die jetzt einfach mal kurzerhand ausschließen bei dem Fehler. -- sk 15:04, 10. Dez. 2010 (CET)Beantworten

Da sind aber noch andere Vorlagen problematisch. Überall wo irgendwas von Hand fett in der Vorlage formatiert wird. -- sk 15:08, 10. Dez. 2010 (CET)Beantworten

Ein anderes Problem gibt es bei Weiterleitungen, dort gibt es ja keinen Artikeltext, also sollten Weiterleitungen bei diesem Fehler herausgenommen werden. Andim 08:22, 3. Dez. 2010 (CET)Beantworten

Hast du mal ein Beispiel für die Weiterleitung? -- sk 15:09, 10. Dez. 2010 (CET)Beantworten

Z.B. Maria Knapp oder Will Champion, Andim 16:42, 10. Dez. 2010 (CET)Beantworten

Ok, das sollte einfach einzubauen sein. -- sk 17:31, 10. Dez. 2010 (CET)Beantworten

Heute habe ich ein paar Einträge gefunden, wo ich nicht erkennen konnte, warum die hier gelistet sind, z.B. Wilhelm Bahlburg, Friedrich Bogislav von Tauentzien --Pelz 23:03, 7. Dez. 2010 (CET)Beantworten

Das liegt am Leerzeichen vor oder hinter dem Namen, welches noch innerhalb des Fettdrucks ist. Gruß --HS13 01:58, 8. Dez. 2010 (CET)Beantworten

Ach so, da hätte ich ja auch draufkommen können. Danke. --Pelz 13:56, 8. Dez. 2010 (CET)Beantworten

Ich schlage zur Behebung vor, den Code ab der Definition von $test_3 zu ersetzen durch

my $test_3 = $text;

$test_3 =~ s/\{\{\s*Infobox\b([^{}]*\{\{[^{}]*\}\})*[^{}]*\}\}//i; #remove infoboxes
$test_3 =~ m/(\'\'\'(.*)\'\'\')/;		#get title from articletext
my $text_title = '';
$text_title = $1 if ($1);

#problem arabic names --> manual get secound ''''
$text_title =~ s/\'\'\'//;				# first '''
my $pos= index($text_title, "'''");
$text_title = substr($text_title, 0 , $pos);

$text_title =~ s/^\s+//;
$text_title =~ s/\s+$//;

my $notice = $test_title.' vs. '.$text_title;

if ($text_title ne $test_title and $text_title ne '') {
	fehlermeldung($error_code, $title, $notice);
}

Dieser Code entfernt Infoboxen (dürfen selbst auch Vorlagen enthalten, nur nicht verschachtelt), führende und abschließende Leerzeichen und meckert nur, wenn es tatsächlich einen fetten Text gibt. Der reguläre Ausdruck für das Entfernen der Infoboxen sieht zwar seltsam aus, funktioniert aber in meinem Skript problemlos. --Schnark 09:26, 15. Dez. 2010 (CET)Beantworten

Wenn es keinen fetten Text gibt, sollte meiner Meinung nach ein Fehler ausgegeben werden. Andim 13:53, 16. Dez. 2010 (CET)Beantworten

Verlinkungen im Fettdruck tauchen auch bei ID267 auf. Gruß --HS13 00:28, 17. Dez. 2010 (CET)Beantworten

@Andim: Das war eigentlich für den Fall mit den Weiterleitungen gedacht. Statt der letzten drei Zeilen wäre aber in der Tat

if ($text_title ne $test_title and not $text =~ /#(weiterleitung|redirect)/i) {
	fehlermeldung($error_code, $title, $notice);
}

besser geeignet. --Schnark 09:42, 18. Dez. 2010 (CET)Beantworten

Es tauchen immer noch Artikel in dieser Rubrik auf die m.E. ok sind aber eine Infobox haben. Stefan, könntest Du das bitte nochmal prüfen? Danke und an alle hier fleißig mitarbeitenden Kolleginnen und Kollegen einen guten Rutsch. Gruss --Pelz 21:07, 30. Dez. 2010 (CET)Beantworten

Neben den Infoboxen und Weiterleitungen gibt es noch das Problem, dass teilweise Leerzeichen nicht korrekt verarbeitet werden. Beispiel: Martin Schwanholz. Im Einleitungssatz steht ein Leerzeichen zwischen ''' und Namen. Das ist soweit korrekter Wiki-Syntax und rechtfertigt keine Änderung. Eine Art Trim-Befehl wäre also wohl nicht schlecht. --APPER\^☺☹ 22:10, 30. Dez. 2010 (CET)Beantworten

ID 88 – Geburts- oder Sterbeort fehlt im Text

Letzter Kommentar: vor 14 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Drei Fragen/Vorschläge:

Wem muss dafür gedankt werden, dass dieser unübersichtliche Haufen von uneinheitlichen Schreibweisen und katastrophalen Fehlern zu einer mehr oder weniger leeren Rubrik geworden ist?
"zwischen" sollte analog zu "bei" und "unsicher:" ignoriert werden, besser noch wäre es, in diesen Fällen nach dem zweiten Wort zu suchen
Eigentlich halte ich es für angebracht, diesen Fehler als hohe Priorität einzustufen. --Schnark 12:18, 7. Dez. 2010 (CET)Beantworten

Ich glaube, da darf man Pelz danken. Andim 21:40, 8. Dez. 2010 (CET)Beantworten

Ich war es ganz sicher nicht alleine. Aber Danke für die "Blumen". Gruß --Pelz 00:13, 11. Dez. 2010 (CET)Beantworten

Neuer Bot

Letzter Kommentar: vor 14 Jahren2 Kommentare1 Person ist an der Diskussion beteiligt

Nur zu eurer Info, lest mal das hier. Nur damit sich nachher keiner wundert. -- sk 10:17, 9. Dez. 2010 (CET)Beantworten

Hier mal ein Beispiel einer solchen generierten Wartungsliste mit Hinweisen zu fehlerhaften Personendaten. -- sk 11:01, 9. Dez. 2010 (CET)Beantworten

Besser mal Wikipedia:Redaktion_Chemie/Arbeitslisten/allgemeine_Textbausteine als Beispiel anschauen. Da ist mehr los (größerer Artikelbereich) und die arbeiten auch immer einiges ab. Merl issimo 11:35, 9. Dez. 2010 (CET)

Aktueller Dump

Letzter Kommentar: vor 14 Jahren13 Kommentare5 Personen sind an der Diskussion beteiligt

Hallo Stefan, gemäß [5] dauert es noch etwas länger, bis es neue Dumps gibt. Könntest Du vielleicht das Skript nochmal über den letzten vorhandenen Dump laufen lassen, damit die neuen und veränderten Fehler auf allen Artikeln überprüft werden. Viele Grüße, Andim 22:53, 9. Dez. 2010 (CET)Beantworten

Kann ich am Wochenende mal starten. -- sk 10:34, 10. Dez. 2010 (CET)Beantworten

Hab das gerade mal gestartet. Der letzte Dump auf dem Toolserver ist vom 15.8.2010 Hoffentlich hilft das. -- sk 14:08, 12. Dez. 2010 (CET)Beantworten

So in dem Dump vom August waren 68680 Verbesserungsvorschläge. Mal schauen wieviel daon noch nach dem Abgleich mit der Live-Wikipedia übrig bleiben. -- sk 18:13, 12. Dez. 2010 (CET)Beantworten

Ok, sind also fast 40000 übrig geblieben. Viel Spaß. -- sk 19:47, 12. Dez. 2010 (CET)Beantworten

Immerhin scheint dabei auch der Fehler unter #ID 7 - Kategorien fehlen verschwunden zu sein. --Schnark 10:00, 14. Dez. 2010 (CET)Beantworten

Zumindest kann man die alten Dumps wieder herunterladen. Unter [6] ist der neuste Dump von de (13. Oktober) zu finden. Andim 13:50, 16. Dez. 2010 (CET)Beantworten

Ohh, schön, da muss ich am Wochenende wohl nochmal ran. -- sk 17:53, 17. Dez. 2010 (CET)Beantworten

Hallo Stefan! Schaffst Du es dabei irgendwie ein paar der hier auf der Diskussion aufgeführten Probleme zu lösen und Ausnahmen einzubauen? Leider sind gefühlt einige 1000 von den über 30000 Vorschlägen gar keine Fehler. Danke und Gruß --HS13 19:15, 18. Dez. 2010 (CET)Beantworten

Hallo HS13, ich habe ein sehr begrenzten Freizeit, da ich als pflegender Angehöriger wichtigeren Dingen Vorrang gewähren muss. Ich versuche alles zeitnah einzubauen, aber manche Dinge sind nur schwer in Quellcode zu gießen. Wenn dir was unter den Nägeln brennt, einfach immer auf dieser Diskussionseite als neue Überschrift einbauen, denn sonst kann ich manchmal was vergessen. In der Weihnachtszeit komme ich vielleicht wieder zu einigen Änderungen. -- sk 11:26, 21. Dez. 2010 (CET)Beantworten

Ein "neuer" ist auch schon in Arbeit, braucht aber wohl noch etwas. Der Umherirrende 18:39, 17. Dez. 2010 (CET)Beantworten

Dieser war in Arbeit, als das System am 10.11. down ging. Wenn irgendwann wieder neue Dumps produziert werden, wird dieser sicherlich nicht fertiggestellt, sondern ein neuer begonnen. Andim 20:19, 17. Dez. 2010 (CET)Beantworten

Stimmt, die Zahlen dort ändern sich nicht. Ich dachte, das der Prozess dort weiter macht, wo er aufgehört hat, da ich "Dump process is idle." auf der Seite übersehen hatte. Der Umherirrende 10:31, 18. Dez. 2010 (CET)Beantworten

Alternativname fehlt, Sonderfall Klammerlemma

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Laut WP:PD hat Heinrich Smidt (Senator) korrekte PD-Einträge - wird hier aber angemeckert. --Quarz 21:44, 11. Dez. 2010 (CET)Beantworten

Das Problem waren die Leerzeichen ''' Heinrich Smidt ''' statt '''Heinrich Smidt''' , Andim 22:14, 11. Dez. 2010 (CET)Beantworten

Name ohne Leerzeichen (ID 26)

Letzter Kommentar: vor 14 Jahren2 Kommentare1 Person ist an der Diskussion beteiligt

Bei diesem Fehler müsste es viel mehr (und vor allem automatisch) Ausnahmen geben, da gerade bei Personen aus der Antike Zusätze mit "von", "der", "aus" so verwendet werden, wie bei Artikeln über neuere Personen Klammerzusätze. Ich schlage daher vor, bei Personen, die vor 1000 lebten und ein "von", "der", "aus" im Lemma tragen als Ausnahme zu deklarieren. --Schnark 09:49, 18. Dez. 2010 (CET)Beantworten

Nachtrag: Das betrifft natürlich auch ID 252: Name mit fehlenden Buchstaben. --Schnark 10:12, 18. Dez. 2010 (CET)Beantworten

Sándor Végh

Letzter Kommentar: vor 14 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Moin, Sándor Végh wird als "Kategorie mit Nationalität fehlt" markiert, obwohl er als "Ungarischer Musiker" und "Österreichischer Musiker" klassifiziert ist. Warum? --Flominator 11:24, 19. Dez. 2010 (CET)Beantworten

Weil in der Kurzbeschreibung "französischer Dirigent" steht. Das Skript sucht vergeblich nach einer französischen Kategorie. Andim

Wo liest du "französisch"? --Flominator 11:58, 19. Dez. 2010 (CET)Beantworten

Wie ich sehe, hast Du es gefunden. Andim 12:14, 19. Dez. 2010 (CET)Beantworten

Philippe Perrenoud (Kategorie mit Nationalität fehlt)

Letzter Kommentar: vor 14 Jahren2 Kommentare1 Person ist an der Diskussion beteiligt

Der Artikel wird unter Portal:Bern/Wartung gemeldet. IMHO zu Unrecht, da er in Kategorie:Kantonspolitiker (Bern), die ihrerseits im Kategoriebaum Schweizer ist, enthält. --Leyo 17:44, 20. Dez. 2010 (CET)Beantworten

Laut Kategorie:Politiker nach Staat sollen Staatsangehörigkeit und Funktion klar getrennt sein. Kategorie:Politiker (Schweiz) ist ein Unterkat, die eine andere Obkat besitzt, die zu Kategorie:Person nach Staatsangehörigkeit gehört. Bei Kategorie:Politiker (Deutschland) ist dies nicht der Fall. Aber Schweiz ist nicht die einzige Kat, die das so macht: [7]

Vielleicht mal im WikiProjekt Politiker fragen, wie man das nun durchziehen will. Merl issimo 23:07, 20. Dez. 2010 (CET)

Danke, ich wollte auch grad… --Leyo 23:16, 20. Dez. 2010 (CET)Beantworten

Name versus Defaultsort

Letzter Kommentar: vor 14 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Die Liste scheint nicht komplett abarbeitbar zu sein. Neben den "Maler von" gibt es auch reverts von Änderungen, die auf dieser Liste basieren. Wie ist es richtig? Ist es in Ordnung, wenn Name und Katsortierung in der Reihenfolge abweichen? Vielen Dank. Der Umherirrende 19:50, 20. Dez. 2010 (CET)Beantworten

Der Verlinkte revert ist ja kommentarlos geschehen. Sprich doch mal den Benutzer auf den Revert an. Vielleicht kann er uns hier kurz erklären warum das so seiner Meinung nach sein sollte. Kenn mich mit den Namen der alten Römer zu wenig aus. -- sk 11:28, 21. Dez. 2010 (CET)Beantworten

Ich habe ihn angeschrieben: Benutzer Diskussion:Tolanor#Römische Namen und die Reihenfolge bei Kategoriesortierung sowie in den Personendaten. Nach Hilfe:Kategorien#Besonderheiten bei Personennamen gibt es bei Personen der Antike keinen Nachnamen, somit müsste kein Komma in PD-Name und Kategoriesortierung auftauchen. Der Umherirrende 21:10, 21. Dez. 2010 (CET)Beantworten

Na ja, so einfach ist dieses bei den römischen Namen aber auch nicht. Sie gehören zwar zur Antike haben aber eine eigene Hilfe. Unter Hilfe:Personendaten/Name#Antikes Rom nachzulesen. Da ich für die, aus heutiger Sicht, verunglückte Bearbeitung der Personendaten verantwortlich bin, wollte ich dieses hier anbringen. Ich war von der ersten Erklärung ausgegangen. Also Ansetzung unter dem mittleren Namen. Ich vermute einmal nach dem Revert, dass Isidor der bekanntere Name ist und aus diesem Grunde auch unter diesem Namen angesetzt werden sollte. Da mir aber auch die "Römer" ein Buch mit sieben Siegeln sind, habe ich schon seit Monaten diese Artikel gemieden :-) Eine Erklärung von Tolanor wäre auch für mich sehr begrüßenswert!--Silke Ewering 22:58, 21. Dez. 2010 (CET)Beantworten