Benutzer Diskussion:Stefan Kühn/Check Wikipedia/Archiv/2009/September
Ideen zur Laufzeitproblematik
Ich habe im obrigen Abschnitt die Laufzeitproblematik gelesen. Ich habe mir daher einige Gedanken gemacht. Ich hoffe es hilft dir die Laufzeit zu verkürzen, bei gleichem Ergebnis. Ich hoffe auch, das du dich damit nicht angegriffen fühlst und es in dieser öffentlichen Form genehm ist. Ich möchte gerne helfen, da ich Teile der Fehler auch als nützlich ansehe und es die Qualität der Artikel verbessert diese zu beseitigen. Selber schaffe ich es leider nicht, immer den aktuellen Dump zu haben. Leider ist die Zahl der Verbesserungsvorschläge für eine Person auch zu viel. Viel Erfolg. Der Umherirrende 18:56, 1. Sep. 2009 (CEST)
- Was ich noch vergessen habe: Hut ab vor der bisherigen Leistung. Wenn du einen Vorschlag umsetzen möchtest, mache es am besten getrennt von anderen Sachen und vergleiche die Ergebnisse (Ausgabedatei oder so). Nur dann kann man sich sicher sein das alles richtig ist (und merkt einen Laufzeitsunterschied, kann auch auch schlechter werden). Falls du meinst, dass die Vorschläge nichts bringen, okay, du musst sie umsetzen, ich würde es dir nicht übel nehmen. Der Umherirrende 19:19, 1. Sep. 2009 (CEST)
Würde es nicht auch gehen, wenn du pro Projekt unterscheidest, ob du nun den großen (All pages, current versions only.) oder doch nur den kleinen Dump (Articles, templates, image descriptions, and primary meta-pages.) brauchst? Und dem entsprechenden das auswählst. Das würde für en die Laufzeit halbieren (ich nehme an, die haben keinen Sonder-Namensraum) --Der Umherirrende 18:56, 1. Sep. 2009 (CEST)
Wenn du mit foreach
etwas suchst, solltest du die Schleife vorzeitig abbrechen, wenn es gefunden wurde. Nach dieser Seite geht das mit last
(Ich habe keine Ahnung von Perl-Programmierung). Einige ifs in Schleifen kann man dann auch entschlacken. --Der Umherirrende 18:56, 1. Sep. 2009 (CEST)
Ich würde die Namensraumabfragen am Anfang machen, direkt nach dem der Artikel gelesen wurde und nicht innerhalb der Fehler. Wenn der Artikel keinen relevanten Namensraum hat, dann braucht es auch keinerlei Zerlegung des Wikitextes, wird eh alles ungenutzt verworfen. Ein weiterer Vorteil ist, das du für einzelne Projekte den Namensraum leichter kontrollieren kannst. (In der Initalisierungsphase für das aktuelle Projekt die passenden Namensräume in einem Array festlegen, wogegen dann geprüft werden kann. Beispielsweise kann es sein, dass der Namensraum 104 in anderen Projekten aufeinmal nicht interessant ist). Der Umherirrende 18:56, 1. Sep. 2009 (CEST)
- Super. Vielen Dank für die Tipps. Da ich mich selbst als fortgeschrittenen Anfänger bei Perl betrachte, nehme ich gern jeden Tipp entgegen. Derzeit liegt erstmal das Augenmerk auf dem neuen Interface, was ja gut angenommen wird. Da sind auch jetzt schon genügend Fehler gelistet. Aber vielleicht komme ich in den langen Winterabenden mal zu einer wirklichen neuprogrammierung oder massiven umstrukturierung. Meist wächst ja so ein Programm organisch und dann kann das schon mal etwas zeitintensiv sein. ich denke den meisten Performancegewinn kann ich in einigen internen Umstrukturierungen rausholen. Das mit dem Dump hab ich schon beachtet, ich nehme immer nur die Kleinen. Das mit den Namensräumen mach ich schon so, am anfang wird der Namensraum ermittelt, und bei jedem Fehler wird individuell ausgeschlossen. Ich wollte möglichst flexibel bleiben. Das mit dem abrechen der Schleifen mach ich schon da wo möglich. - Das insgesamte Problem ist einfach das Wachstum. Man muss immer bedenken, dass vielleicht heute es noch geht, aber in drei Jahren so nicht mehr möglich ist. Deswegen will ich auch eher weg vom Dump hin zu einer Art Live-Scan, bei der regelmässig in den Wikipedias z.B. die Letzten Änderungen abgegrast werden. Zusätzlich will ich für jeden Artikelscan auch ein Datum abspeichern um nicht dreimal am Tag den gleiche zu scannen. Aber das ist noch zukunftsmusik. -- sk 20:56, 1. Sep. 2009 (CEST)
Error 082 in Finnish wikipedia
All the links starting with [[Wikipedia: (linking to Wikipedia namespace within fi-wiki) are included in the error report. --Jhattara 10:37, 1. Sep. 2009 (CEST)
- IMHO: This is a error. We write a encyclopaedia and not a Wikipedia-project. So in every article should only links to other articles. Only with this permission you can use this data outside of wikipedia. Like in a book or in an other project. -- sk 11:10, 1. Sep. 2009 (CEST)
- Most of the links to the Wikipedia namespace in Finnish Wikipedia are on the pages for years, decades, and centuries, where there is a link to the discussion about how to write time in Finnish Wikipedia. Those clutter the list beyond any usablitity. If the link [[Wikipedia:Keskustelua ajan merkitsemisestä Wikipediassa|ajan merkitseminen]] is included in errors, this error report will remain useless for the Finnish Wikipedia. --Jhattara 09:41, 2. Sep. 2009 (CEST)
- Actually... Just checked that the link to discussion is a redirect. The correct place it should link in Finnish Wikipedia is [[Ohje:Merkitsemiskäytännöt]]. --Jhattara 09:43, 2. Sep. 2009 (CEST)
- I understand the problem, we had the same in dewiki and in other languages. But this link should stand at the discussion page or in a comment inside the article. It should not stand inside the article text. For Example: If I read a article about the year 2001 I will not read how to write this article. - In the next time I will implement a Whitelist inside the new interface. I hope this will help for this problems. -- sk 10:33, 2. Sep. 2009 (CEST)
DEFAULTSORT (006 and 037)
Like the ca.wiki, the esperanto project has another name to the "DEFAULTSORT". We uses DEFAUxLTORDIGO, that creates a special letter ("DEFAŬLTORDIGO"). We have to maintain some special letters also in the sortkey ("Sahxarov" in the sortkey = Saĥarov). These "special letters" are allowed in that project: ĉ, ĝ, ĥ, ĵ, ŝ, ŭ and also Ĉ, Ĝ, Ĥ, Ĵ, Ŝ, Ŭ (in uppercase). This happens because they are different letters from c, g, h, j, s and u. Could them be ignored by the errors 006 and 037? If you need the unicode, just let me know. Thanks in advance. Castelobranco 02:52, 7. Sep. 2009 (CEST)
- These letters are written with an "-x" ("cx", "gx", "hx", etc.) But the eo-mediawiki - and as I see, the Check Wikipedia dump either - recognizes them as diacritics (ĉ, ĝ, ĥ, etc.). Castelobranco 02:57, 7. Sep. 2009 (CEST)
- Many thanks for this info. I will fix this bug. I write this on my To-do-list -- sk 09:04, 7. Sep. 2009 (CEST)
Error 61 in ptwiki
The list of error 61 - Reference with punctuation (4-sep-09) there are some articles without this error that are shown in the list, like 105 Lélio Gama St. and 12758 (número). Rjclaudio 14:19, 4. Sep. 2009 (CEST)
- I think this is from a old dump. If you want sure, that this is in the article then use this new page. There you found for a bot all articles from the database, where no user set this as "Done". You can set the limit there to 500 and also scroll with the parameter "offset". I hope this will help you. -- sk 09:25, 7. Sep. 2009 (CEST)
Could you change in the script the links at "List of all articles with error xxx" to this new url? Rjclaudio 01:38, 9. Sep. 2009 (CEST)
Sugestion to new errors with Defaultsort
Double Defaultsort, and Text after Defaultsort. Rjclaudio 14:19, 4. Sep. 2009 (CEST) 01:47, 6. Sep. 2009 (CEST)
- Double Defaultsort is a good idea. I write this at the To-do-list. But Text after Defaultsort is not possible. I have no good algorithm to detect this in de, en, es or ja, ar ... -- sk 09:16, 7. Sep. 2009 (CEST)
If you can do this to category why cant use the same algorithm? Maybe you can create a error specific to some languages that you can make this easy. Rjclaudio 01:35, 9. Sep. 2009 (CEST)