Hi, er zählt die Sätze noch nicht richtig. Ist vielleicht schon aufgefallen. Dort, wo ein Punkt zum Beispiel in einem Datum ist, wirds pro Punkt ein Satz mehr ;-) http://de.wikipedia.org/wiki/Wolfgang_Fortner 5 Sätze gezählt, 3 vorhanden. --Olaf1541 20:13, 8. Jun 2003 (CEST)
- Hallo Olaf, danke für den Hinweis. Ich hatte es schon selbst bemerkt und leider gibt es auch noch viel mehr Situationen, wo es schief geht: "I.", " II." " IX." etc., "St.", "bzw.", "Dr.", "Prof.", "z.B.", "13. März" usw. Der Aufwand eine solche Satztrennung exakt zu machen ist wahrscheinlich zu hoch. Auch die Paragraphenzählung und sogar die Wortzählung ist nicht exakt (z.B. wird en:xyz fälschlicherweise mitgezählt). Exaktheit ist aber auch nicht so wichig, denn es geht mehr um die Größenordnung und die stimmt meistens. -- mkrohn 23:31, 8. Jun 2003 (CEST)
Hallo PyBot, bzw Marco, wie wäre es damit:
Die Seite Fgb zeigt nach Benutzer:Fgb, das ist also extrem störend und überhaupt nicht tolerierbar :-), eine Liste von zu konvertierenden Artikeln findet man hier. Zu ersetzen wäre jeweils Fgb durch Benutzer:Fgb. Keine Ahnung ob das ein sinnvoller Vorschlag ist aber vielen Dank für die Konvertierung der Datumsartikel! Gruß 141.84.26.154 07:40, 29. Mai 2003 (CEST)
- Hallo Fgb, danke für dein Interesse, aber ich fürchte das dies keine geeignete Aufgabe für ein Skript ist. Das Skript umzuschreiben erfordert fast genausoviel Aufwand wie die Konvertierung von Hand (es sind ja nur um die 20 Seiten). Außerdem reagieren manche Wikipedianer allergisch auf Skripte und Bots, d.h. ich fürchte dass du damit auf der deutschen mailingliste nicht durchkommen wirst. Beste Grüße -- mkrohn 11:46, 29. Mai 2003 (CEST)
Hallo Marco,
ich hab mir grade die Testseite angeschaut und festgestellt, dass beim Urheberrechtstest relativ viele false positives auftauchen. Das könnte man vielleicht reduzieren, indem man a) längere Textabschnitte nimmt und/oder b) Textabschnitte um einen Punkt + Leerzeichen herum, damit erwischt man (öfter) zwei halbe Sätze, die über mögliche Urheberrechtsverletzungen mehr aussagen als "Fische, Würmer und Amphibien", "und seine Mutter starb" o. ä. Nur mal so als Anregung --Elian
- Hallo Elian, danke für deine Anregungen. Die Analyse von Textstellen ist sicherlich noch nicht perfekt. Zum einen wird der Text völlig fehlerhaft in Sätze zerlegt (jeder Punkt zählt als Satzende), zum anderen wird keine Analyse gemacht wie geeignet ein Satz für eine Anfrage macht. Viele triviale Wörter wie "der", "sich" etc. sollten nach Möglichkeit vermieden werden. Diese features werden sicherlich noch kommen, aber um einen schnellen Überblick zu bekommen, ob eine Urheberrechtsverletzung vorliegen könnte sollte auch die benutze primitive Methode reichen. Ob es wirklich besser ist den Satz um einen Punkt herum zu wählen weiß ich nicht. 6 Wörter sind in den allermeisten Fällen äußerst zuverlässig, die "Fische, Würmer und Amphibien" z.B. gibt es nichteinmal bei google :-). Vielleicht spiele ich mal damit herum, aber zuerst habe ich noch ein paar andere Dinge auf meiner TODO Liste, die ich gerne umsetzen würde. Vielen Dank für deine Anregungen aber auf jeden Fall. Beste Grüße, Marco -- mkrohn 00:27, 20. Jun 2003 (CEST)
Hallo Marco,
könnte man den PyBot auch dazu verwenden, alle Artikel nach Daten durchzusuchen - um sie dann in den Tages-, Monats- und Jahres-Artikeln nachzutragen? Oder gar, das klingt ja fast ein wenig utopisch, auch gelich zu überprüfen, ob sie dort auch schon eingetragen sind?
Da der PyBot eigentlich auch ein Bot, (Software)-Robot, -Roboter ist, könntest Du darüber auch eine Ergänzung beim Roboter schreiben? Gruss :-) Ilja 12:44, 26. Jun 2003 (CEST)
Hallo Marco,
kann Pybot eine Reihe von Saurischa-Vorkommen in Saurischia konvertieren? Oder geht das per Hand schneller? -- fristu 14:47, 1. Sep 2003 (CEST)