Wikipedia Diskussion:Falsches Datumsformat

Einleitung dieser Diskussionsseite anzeigen

Was ist bitte ein anstößiges Datum? Anstößiges Verhalten kann ich hier weit öfter entdecken. Aber anstößige Daten? TG 17:07, 16. Jun 2004 (CEST)

unglückliche Bezeichnung für "behämmertes Datumsformat" ;)

Hrywnja

Ich kann beim besten Willen hier nichts Anstößiges finden. vielleicht habe ich Knöpfe auf den Augen? --elya 22:00, 17. Aug 2004 (CEST)

Der Titel ist scherzhaft gemeint. --TomK32 WikiReader Internet 08:07, 18. Aug 2004 (CEST)

Quelltext vs Sichttext

Die abfrage findet auch datumsformate und datumsaehnliche formate in nichtsichtbaren anteilen, da es im quelltext eines artikels sucht. Das ist selbst durchaus behaemmert, da weblinks ebenso den regex treffen wie auch angaben in kommentarbloecken. Mir duenkt, dass es sehr leicht moeglich gewesen waere, das ergebnis der datenbankabfrage zu filtern, ob denn der regex auch wirklich im textinhalt und eben nicht im unsichtbar bleibenden markup auftaucht. Guidod 01:27, 21. Nov 2004 (CET)

Ja, das ist durchaus möglich, und in der Tat unerwünscht.

Wenn du mir sagst, wie die Filterung mit einer SQL-Abfrage zu bewerkstelligen ist, werde ich gern eine entsprechend angepasste Abfrage verwenden. Wenn es dafür aber nötig ist, ein externes Programm zu verwenden, wird die Sache schwieriger. --SirJective 14:04, 21. Nov 2004 (CET)

ich selbst wuerde es natuerlich mit einem externen programm machen, da das einfacher und vor allem sicherer ist. Da wuerde man einfach die hier gezeigte liste der wiki-eintraege nehmen, mit pywikipedia eine funktion zum ja/nein filtern schreiben, die man spaeter erweitern kann, falls man was vergessen hat. Beim wiki-format besteht ja das problem, dass unsichtbarer text nicht nur in spitzen klammern steht, sondern auch in so manch eckigem, sodass ein regex auf dem quellformat immer falsch positive liefert, während man fuer daraus generierten html durchaus etwas einfaches finden kann, in dem man die offensichtlichen markups ausschliesst, z.b.

('>'||cur_text||'<') REGEXP ">[^<>]*[^0-9\\)][0-9]{2}\\.[0-9]{2}\\.[0-9]{4}[^0-9\\)][^<>]*<"

ob sowas auch im quellformat einige falsch positiv rauswirft, waere zu pruefen. Womoeglich hat auch mal jemand eine datenbankfunktion geschrieben, die wiki-format verarbeiten kann? Die grossen datenbanken koennen ja auch externe funktionen einbinden, etwa die wiki-zu-html generierung, sodass man dann das ganze mal eben datenbank-intern laufen lasse koennte. Aber dazu habe ich nicht genug einblick in die interna bzw. habe ich keinen datenbank-zugriff, um das mal eben zu pruefen.

('>'||wiki2html(cur_text)||'<') REGEXP ">[^<>]*[^0-9\\)][0-9]{2}\\.[0-9]{2}\\.[0-9]{4}[^0-9\\)][^<>]*<"

Guidod 17:52, 21. Nov 2004 (CET)

Den Datenbank-Zugriff kannst du dir verschaffen: Wikipedia:Download. Meine Kenntnisse in SQL reichen aus, um die auf der Seite angegebene Abfrage auszuführen, sogar soweit, dass ich sie mir hätte selbst auszudenken können. Aber die Schnittstelle zwischen SQL und externen Programmen ist immer noch ein verschlossenes Buch für mich (ich beherrsche weder PHP noch Python). Ich hab ein JAVA-Programm, mit dem ich den Dump durchsuchen kann, aber da müsste ich erstmal den Regexp programmieren - oder in einem JAVA-Package finden. Wenn mir das gelänge, könnte ich wohl leicht im Artikelquelltext schauen, ob davor der Anfang oder dahinter das Ende eines "Versteckers" ist (HTML-Kommentar, nowiki-Tag, math-Tag, Links, ...) Weißt du einen Weg, wie SQL mir sagen kann, wo im Text der regexp aus der Abfrage zugeschlagen hat? --SirJective 21:21, 21. Nov 2004 (CET)

wie ich ebenda sehe, scheint wikipedia auf mysql als datenbank zu basieren, diese jedoch ist bezueglich gehaltvoller programmierung eher verkrueppelt zu nennen. Nur im zusammenspiel mit einer programmiersprache (etwa php) laesst sich sinnvoll funktionalitaet dazufuegen. Seit java 1.4 sind regexe fester bestandteil von string objekten.

http://java.sun.com/j2se/1.4.2/docs/api/java/lang/String.html#matches(java.lang.String)

http://java.sun.com/j2se/1.4.2/docs/api/java/lang/String.html#split(java.lang.String)

nach der dokumentation der java regexe wird der im artikel gezeigte sql regex exakt gleich funktionieren. Der rest muesste drumprogrammiert werden, sollte aber nicht schwer sein. Guidod 22:00, 21. Nov 2004 (CET)

Danke für die Info. Das ist doch ein guter Grund, mein System auf java 1.4 zu aktualisieren :) Außerdem werd ich mich bei Gelegenheit mit den SQL-Fähigkeiten von java beschäftigen... Dieses Zusammenspiel sollte doch dann so mächtig wie sql+php sein. --SirJective 13:39, 22. Nov 2004 (CET)

Hab jetzt mein Programm so geschrieben, dass es nach dem Regexp sucht und schaut, ob die gefundenen Daten vermutlich innerhalb eines Links, HTML-Kommentars oder nowiki-Tags stehen. Das Ergebnis sind insgesamt 1884 gefundene Artikel; davon 131, bei denen alle Daten in den "no no"-Bereichen sind. --SirJective 04:16, 25. Nov 2004 (CET)

Letzte Änderung um

Ich habe gerade gesehen, dass auch das Datum ganz unten bei "Zuletzt geändert um ...." mitgezählt wird. Kann dies unterbunden werden oder derzeit nicht möglich?? --[[Benutzer:ElRaki|ElRaki ?!]] 04:54, 10. Dez 2004 (CET)

Wo hast du das gesehen (in welchem Artikel)? --SirJective 11:18, 10. Dez 2004 (CET)

Ich dachte, ich habs in Contracting gesehen. Hab aber nochmal nachgesehen und ich hab nicht genau genug nachgesehen. Es war der Fall, dass der Artikel bei deiner Liste ein "falsches" Datum mit dem Jahr 2004 hat, das schon verbessert wurde. Und beim Suchen bin ich dann natürlich zu den letzen Änderungen gekommen und hab falsch kombiniert. Also Fehlalarm, sorry --ElRaki ?! 13:18, 10. Dez 2004 (CET)

Aus Liste entfernen?

Soll man den Artikel aus der Liste entfernen wenn man ihn korrigiert hat? --Horgner 12:01, 14. Dez 2004 (CET)

Ja, bitte. So sieht man, wann es wieder Zeit für eine Aktualisierung ist. --SirJective 16:01, 14. Dez 2004 (CET)