Hilfe Diskussion:Wikisyntax/Validierung

Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. Das aktuelle Archiv befindet sich unter Archiv.

Statistik

Letzter Kommentar: vor 3 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

17. April 2022
Namensraum	HTML5 misnested	Tidy font link bug	Misnested tags	Wikilink in extlink	Missing end tag	Obsolete HTML	Stripped tags	Andere	Gesamtzahl
Artikel					954	484			01.438
Diskussion			2.955		27.513				30.468
Benutzer	4		2.512 ↑	2	22.569 ↑	12.832	4.800	8	42.727
Benutzer Disk	5	15	2.407	5	15.295	24.563	2.637	6	44.933
WPNR			4.980		13.986	29.229	1.923		50.118
andere NR				1	2	2	32		00.037
Gesamt (alle)	9	15	12.854	8	80.319	67.110	9.392	14	169.721

hohe Priorität – nur noch verweigerte Reparaturen

mittlere Priorität

niedrige Priorität – noch etliche tausend Fehler auch im ANR

_ Gemischt – vereinzelte Fehler in den Kategorien
Noch 1.633 FfOoNnTt-Tags (Stand 17. April 2022). -- Lómelinde Diskussion 06:18, 17. Apr. 2022 (CEST)Beantworten
Aktuelle Zahlen: https://fireflytools.toolforge.org/linter/dewiki

Ersatztabelle

Fehler auslösende Signaturen, Tag- oder Fontfehler
derzeit leer

Bot-fixing: Missing end tag

Letzter Kommentar: vor 3 Jahren59 Kommentare6 Personen sind an der Diskussion beteiligt

Nach einigem Tüfteln über Cirrus-Syntax und Server-Timelimit erlaube ich mir, einige Fälle als Listengenerator zu unterbreiten, für die sich eine Bot-mäßige Reparatur auf eigene Verantwortung anböte. Schlimmer kann es kaum werden.

Letzteres trifft auch Fälle, wo zwischen URL und '' das Leerzeichen fehlt; diese könnten im Interesse der Syntaxhygiene erstmal bereinigt werden, auch wenn MW sie als funktionierend akzeptiert:

~~1.139~~ 1.274 Artikel

Mag dann hinterher alles nochmal mit https als Vorab-Filter nachgeschärft werden.

Weitere häufige Konstrukte können sinngemäß ausgetüftelt werden.

Viel Spaß --PerfektesChaos 16:42, 8. Feb. 2022 (CET)Beantworten

Du hast aber den Abschnitt weiter unten #Falsche Klammer-/Tag-Reihenfolge gesehen oder? Da geht es um ebendiese Fälle meine ich zumindest. Und nein Spaß machen die nun wirklich nicht. --Liebe Grüße, Lómelinde Diskussion 16:53, 8. Feb. 2022 (CET)Beantworten

Nein, ich blicke durch die Abschnitte dieser Seite nicht durch.

@Bots: Der Plan ist, die solcherart detektierten Listen von Artikeln und anderer Seiten durch robuste reguläre Ausdrücke automatisiert zu berichtigen. Gaanz vorsichtig, und eins nach dem anderen.

VG --PerfektesChaos 17:02, 8. Feb. 2022 (CET)Beantworten

Ja ich wollte sie auch schon lange mal aufräumen, aber nach meiner Methode würde ich das überflüssige einfach löschen, ich weiß nicht ob das so gut ankommen würde. Es müsste eine Automatik werden, da bin ich ganz deiner Meinung, das passiert täglich neu. --Liebe Grüße, Lómelinde Diskussion 17:15, 8. Feb. 2022 (CET)Beantworten

Falsche Klammer-/Tag-Reihenfolge

@Doc Taxon: Magst Du mal schauen, ob Du per Bot folgende Fehler korrigieren kannst (häufig im ANR):

''[<irgendeine.url> Linktext''] -> ''[<irgendeine.url> Linktext]''
''[<irgendeine.url> Linktext''.] -> ''[<irgendeine.url> Linktext.]'' (gerne auch mit dem Punkt außerhalb der eckigen Klammer und auch mit anderen Satzzeichen wie ! und ?)
[<irgendeine.url> ''Linktext]'' -> [<irgendeine.url> ''Linktext''] (ebenso mit Satzzeichen)

oder auch alle genannten Varianten mit

''{{Webarchiv|... |text=Linktext'' |...}}

Danke und viele Grüße --Mabschaaf 14:27, 9. Jan. 2022 (CET)Beantworten

ja, mag ich mal, aber nicht heute. – Doc Taxon • Disk. • 11:26, 10. Jan. 2022 (CET)Beantworten

Dann aber schon heute vorauseilenden Dank dafür, denn dann kann ich mir weitere händische Korrekturen vorläufig sparen ;-) Ich fürchte, es wird noch genug übrig bleiben... --Mabschaaf 12:26, 10. Jan. 2022 (CET)Beantworten

@Wurgl: kannst Du zu den vier Punkten irgendwie eine Artikelliste erstellen? Vielleicht hast Du auch erweiterte insource-Kenntnisse

– Doc Taxon • Disk. • 15:28, 19. Jan. 2022 (CET)Beantworten

Ich glaub für die erste Konstruktion hab ich damals (am 10. Januar) aus Spass an der Freud eine Regexp gebastelt (aus Browser-History gekramt): insource:/\[[^\]]*''[^'\]]*\]''/ … wie zu erwarten fällt die natürlich ins Timeout, bei mir nach ca. 1100 Treffern. Ich mach mal eine Auswertung des letzten Dumps. --Wurgl (Diskussion) 15:50, 19. Jan. 2022 (CET)Beantworten

Timeout macht übrigens erst mal nichts. – Doc Taxon • Disk. • 16:05, 19. Jan. 2022 (CET)Beantworten

@Wurgl: kluge Insource-Abfragen würden mir sogar reichen. Du brauchst keine Dumps auswerten oder Listen erstellen. Für Deine Hilfe immer dankbar, – Doc Taxon • Disk. • 16:07, 19. Jan. 2022 (CET)Beantworten

Dumps auswerten juckt nicht, ich hab das fix und fertig, muss da nur ein paar Zeilen mit Regexp dazupappen. Die regexp oben ist übrigens die dritte Form, nicht die erste. --Wurgl (Diskussion) 16:12, 19. Jan. 2022 (CET)Beantworten

Die ersten beiden(!) Fälle wären insource:/''\[[^\]']*''[^'\]]*\]/ (ca. 410 Treffer bis Timeout) bzw. eine Regexp für alle drei: insource:/\[[^\]']*''[^'\]]*\]/ in dem Fall müsstest du dann zu Fuß suchen, ob die korrespondierenden '' davor oder danach rumlungern. Es gibt da aber False-Positive wie die Dateibeschreibung in Japan (edit Abschnitt Küche) --Wurgl (Diskussion) 16:25, 19. Jan. 2022 (CET)Beantworten

Zum Webarchiv kann meine Vorlagensuche im ANR die Fälle finden (288 Artikel mit Parameter "text" in Vorlage:Webarchiv bzw. ganz allgemein 381 Artikel). Da gibt es klasse Konstrukte wie Air14 (edit Abschnitt Weblinks) Die Vorlagenfehler würde ich gerne selbst mit dem APPERbot machen, die sind wahrscheinlich nur vereinzelt außerhalb des ANR. --Wurgl (Diskussion) 16:12, 19. Jan. 2022 (CET)Beantworten

@Wurgl: Die Dateibeschreibung in Japan hat aber auch nur doppelte Eckklammern. Hier geht es nur um single brackets. Vielleicht geht die Regexp so anzupassen, dass Doppeleckklammerergebnisse nicht aufkommen. – Doc Taxon • Disk. • 16:31, 19. Jan. 2022 (CET)Beantworten

Stimmpt! Ich hab mal der Regexp gesagt, am Anfang und Ende sollen keine zwei Eckigen sein: insource:/[^\[]\[[^\]']*''[^'\]]*\][^\]]/ Da gibts aber auch den Hitler mit einem [sic] im Text, solche Falsch-Positive kann Regexp nicht ausklammern. --Wurgl (Diskussion) 16:38, 19. Jan. 2022 (CET)Beantworten

Ja genau, die Webarchiv-Ergebnisse kannst Du natürlich selbst machen. Mach die ruhig auch im ex-ANR-Bereich, denn da sind die schließlich auch falsch (freut sich Lómelinde, aber auch ich wieder etwas mehr ) – Doc Taxon • Disk. • 16:34, 19. Jan. 2022 (CET)Beantworten

Außerhalb geht leider nicht, da hab ich keine Daten in meiner Datenbank. --Wurgl (Diskussion) 16:39, 19. Jan. 2022 (CET)Beantworten

Wenn Du die insource-Abfrage machst, h#ttest Du Deine Daten ... – Doc Taxon • Disk. • 16:48, 19. Jan. 2022 (CET)Beantworten

Ähm Wurgl, wenn das bei Dir soweit fix und fertig ist, kannst Du dann die Sachen mit Apperbot nicht gleich selbst korrigieren? – Doc Taxon • Disk. • 16:40, 19. Jan. 2022 (CET)Beantworten

Die Dumpauswertung hab ich hier rumliegen (damit mach ich Benutzer:Wurgl/Fehler_Bilder (ist abgearbeitet)). Das Rumhampeln mit der Hochkommaverschiebung hab ich nicht. --Wurgl (Diskussion) 16:42, 19. Jan. 2022 (CET)Beantworten

okay, @Wurgl:, dann haste mir jetzt schon mal sehr weitergeholfen. Vielen lieben Dank, – Doc Taxon • Disk. • 16:53, 19. Jan. 2022 (CET)Beantworten

Ich kümmer mich drum, – Doc Taxon • Disk. • 07:14, 20. Jan. 2022 (CET)Beantworten

Gruselig! Echt gruselig!

''{{Webarchiv|…|text=''|webarchive=…}} => {{Webarchiv|…|text=|webarchive=…}} (eventuell noch Leerzeichen vor der Vorlage)
''{{Webarchiv|…|text=Blah''…}} => {{Webarchiv|…|text=''Blah''…}}
{{Webarchiv|…|text=''Blah…}}'' => {{Webarchiv|…|text=''Blah''…}} (eventuell noch Leerzeichen oder Satzzeichen nach der Vorlage)
{{Webarchiv|…|text=''Sendung | Sender''}} => {{Webarchiv|…|text=''Sendung {{!}} Sender''}}
{{Webarchiv|…|url=http:example.com/seite.html''Blah | text=Blubb''}} => {{Webarchiv|…|url=http:example.com/seite.html | text=''Blah Blubb''}}
Zusätzlich: Wenn innerhalb <ref>…</ref> eine ungerade Anzahl von '' ist, dann wird das korrespondierende '' hinzugefügt. Selbiges bei einer listenartigen Aufzählung wie im Abschnitt Weblinks.

Damit decke ich ca. zwei Drittel der Fälle ab.

Aber für so Dinge wie * {{Webarchiv | … | text=Die Buchbesprechung zu "Miss Tschörmänie" auf: ''}}[[ARTE]].'' 26. Juli 2009 ist es heute einfach zu spät für klare Gedanken was sowas wohl werden wollte. --Wurgl (Diskussion) 22:28, 20. Jan. 2022 (CET)Beantworten

Was es werden wollte? Ich schätze mal so

* {{Webarchiv | … | text=Die Buchbesprechung zu „Miss Tschörmänie“}} auf: ''[[ARTE]].'' 26. Juli 2009

oder

* {{Webarchiv | … | text=''Die Buchbesprechung zu „Miss Tschörmänie“''}} auf: ''[[ARTE]].'' 26. Juli 2009

Falls das am Ende gut funktioniert sollte mindestens ein Bot das regelmäßig wiederholen, denn diese kursiv- fett-Fehler sind jene, die am häufigsten nachkommen, meine ich. Neben denen, die durch Benutzer verursacht werden, die einfach meinen es sei cool die Tägs vorne zu setzen und bewusst auf das Ende zu verzichten, weil das ja pro Zeile automatisch abbrechen würde, oder aber den Tags die über mehrere Tabellenzellen oder Vorlagenparameter gespannt werden ! Datum || '''Zelle 2 || Zelle 3'''. Es in die Köpfe der Benutzer zu bekommen, dass eigentlich alle Tags aus zwei Teilen bestehen, ist aussichtslos. „Ham wa schon immer so gemacht, hat immer funktioniert, warum also etwas ändern?“ --Liebe Grüße, Lómelinde Diskussion 06:42, 21. Jan. 2022 (CET)Beantworten

Ich denke an deine zweite Variante, es sei denn die '' stehen am Anfang (oder in der Mitte) des Textes. Und ja, das wird regelmäßig laufen. --Wurgl (Diskussion) 07:54, 21. Jan. 2022 (CET)Beantworten

171 Artikel bin ich jetzt per Bot durchgegangen (gestern auch 129 einfache Fälle), in zwei hab ich zu Fuß was geändert weil dort irgendwann die Vorlage ~~blödsinnig~~ falsch eingesetzt wurde und 6 sind noch übrig:

@Mabschaaf:

Antoine Porot Vorlage:Webarchiv (2. Einbindung)
Crazy Town Vorlage:Webarchiv (2. Einbindung)
Der auferstandene Christus (Tlalnepantla) Vorlage:Webarchiv
ERMETH Vorlage:Webarchiv
Naloxon Vorlage:Webarchiv
Paulo-Afonso-Wasserkraftkomplex Vorlage:Webarchiv (2. Einbindung)

Das war jetzt nur die Vorlage Webarchiv, die anderen Vorlagen kommen noch, sind noch 121 Treffer. --Wurgl (Diskussion) 15:44, 21. Jan. 2022 (CET)Beantworten

@Wurgl: Danke für Deinen Einsatz! Es ist völlig ausreichend, wenn Du die Standardfälle wegräumst, alles, was dann noch übrig ist, werden wir per Hand schon noch erledigen. Das gilt auch für die "normalen" eingangs erwähnten Weblinks. Alles händisch zu machen ist halt ziemlich stupide.--Mabschaaf 16:17, 21. Jan. 2022 (CET)Beantworten

@ Wurgl So richtig einen Effekt habe ich hier bisher noch nicht bemerkt, hast du das schon laufen lassen? Dann war es zumindest nicht so, wie erhofft. --Liebe Grüße, Lómelinde Diskussion 16:57, 27. Jan. 2022 (CET)Beantworten

Webarchiv ist gelaufen. So 300 Artikel waren das. Die anderen Vorlagen hab nicht noch nicht geguckt. --Wurgl (Diskussion) 17:00, 27. Jan. 2022 (CET)Beantworten

Ach so, na das sind ja zumeist keine Vorlagen, sondern Weblinks. Die machen ja die meisten der fehlendes kursiv Fehler aus. Das schlägt dann immer doppelt zu Buche. Na ja eigentlich wollte sich der Doc darum kümmern, aber er ist wohl auch etwas überlastet. Ich mag diese Fehler nicht, weil sie echt öde manchmal aber auch wirklich schwierig aufzuspüren sind, wenn das ganze in Vorlagen in Vorlagen verschachtelt ist. --Liebe Grüße, Lómelinde Diskussion 17:11, 27. Jan. 2022 (CET)Beantworten

@ Doc Taxon arbeitest du noch an diesem Thema? Es sind noch einige hundert und das sollte eigentlich zu einer Dauerlaufabfrage werden. Denn gerade diese in- und außerhalb von Linkklammern kommen immer wieder neu hinzu. --Liebe Grüße, Lómelinde Diskussion 16:25, 24. Mär. 2022 (CET)Beantworten

Leerzeichenfehler

Weiß irgendjemand, ob das hier Hilfe:Wikisyntax/Validierung#Leerzeichenfehler (tidy-whitespace-bug) jemals funktioniert hat? Ich kann mich nicht erinnern, dass diese Fehler tatsächlich analysiert wurden oder ich auf so einen Fehler gestoßen bin. Ich meine nur wem nutzt so eine Fehlerkategorie, wenn sie doch nicht aktiv ist. In der en:wp gibt es 3 Fehler aber es ist nicht das was ich auf der Vorderseite als Beispiele habe.

{{nowrap|[[Toy Story]] <small>(1995)</small> }}| = kein Fehler obwohl das Leerzeichen vor dem Pipe fehlt
Toy Story (1995)|

und es eigentlich so aussehen müsste

Toy Story (1995) |

Ich meine so etwas wird doch sicherlich mal irgendwo vorkommen insbesondere in Navileisten. --Liebe Grüße, Lómelinde Diskussion 11:10, 18. Jan. 2022 (CET)Beantworten

Naja, ich kann mir schon vorstellen, dass dieser Fehler relativ selten vorkommen sollte. Aber wenn das mal passiert, schlägt der "Lintalarm" an, und das ist doch auch gut so, oder nicht? – Doc Taxon • Disk. • 15:22, 19. Jan. 2022 (CET)Beantworten

Nein, das tut er eben nicht, das war doch meine Frage. Er sollte das bemerken tut es aber nicht. Ich kann mich daher nicht erinnern je so einen Fehler gehabt zu haben. Die Auswertung scheint nicht aktiv zu sein. Man sieht es doch eindeutig, dass da etwas falsch ist, aber Linter ignoriert das. Ich weiß nicht wie man danach suchen müsste. Das hier insource:/\{\{[nN]owrap\|^*\}\}/ oder das insource:/\{\{[nN]owrap\|^* \}\}/ bringt nur leere nowraps. Ich suche aber welche wo Inhalt ist und am Ende ein Leerzeichen steht. --Liebe Grüße, Lómelinde Diskussion 19:35, 19. Jan. 2022 (CET)Beantworten

56 Stück Inline würde das so aussehen: insource:/\{\{[nN]owrap\|[^}]* \}\}/ … gibt aber ein paar falsche Treffer wenn eine Vorlage verschachtelt ist (und in der verschachtelten ein Leerzeichen vor den abschließenden }} ist und findet auch nicht alle (ebenfalls bei Vorlage in Vorlage wenn die innere Vorlage kein Leerzeichen am Ende hat). --Wurgl (Diskussion) 20:23, 19. Jan. 2022 (CET)Beantworten

Dankeschön, es gäbe noch die Verwendung als style-Zuweisung irgendwo innerhalb eines span oder was auch immer.

251 nowrap alle Namensräume.

Ich sagte doch, es gibt da sicherlich welche, die Analyse scheint also nicht aktiv zu sein. Es sind in den meisten Fällen Tabellenzellen wo kein Inhalt folgt oder aber jemand hat bewusst ein Leerzeichen dahinter gesetzt. Daher fällt es in der normalen Ansicht auch nicht auf. Oder es folgt ein Zeilenumbruch oder ist das letzte Element {{nowrap|[[Link]] }}, wie in etlichen Navileisten, was das unauffällig macht. --Liebe Grüße, Lómelinde Diskussion 06:42, 20. Jan. 2022 (CET)Beantworten

@Lómelinde: Guten Morgen, ich guck mal, ob ich das automatisch wegbringen kann. Liebe Grüße, – Doc Taxon • Disk. • 07:01, 20. Jan. 2022 (CET)Beantworten

Dankeschön. --Liebe Grüße, Lómelinde Diskussion 07:05, 20. Jan. 2022 (CET)Beantworten

@Doc Taxon: haste schon was gemacht? Weil ich hab nix gesehen, dass du machen willst und hätte es fertig. Ich würde das aber erst laufen lassen, wenn tatsächlich Fehler gezählt werden. Soweit ich gesehen hab, tritt der demonstrierte Fehler oben nicht im ANR auf. Diese nowrap sind alle von Leerzeichen gefolgt (oder Newlines, <br/>, Enden von Tabellenspalten, etc. --Wurgl (Diskussion) 16:35, 23. Jan. 2022 (CET)Beantworten

@Wurgl: bissl was anderes zu tun habe ich auch noch. Und dann bin ich auch noch berufstätig – nein, nicht im Home Office. Ich hab das aber nicht vergessen ... – Doc Taxon • Disk. • 22:51, 23. Jan. 2022 (CET)Beantworten

Hierfür muss ich ein Derivat meines Steuerzeichen-Jägers bauen. Mal schauen, – Doc Taxon

Disk. • 12:37, 12. Apr. 2022 (CEST)Beantworten

→ @Lómelinde, Wurgl: Die 56er-Wurgl-Liste ist schon mal abgearbeitet. – Doc Taxon Disk. • 22:34, 12. Apr. 2022 (CEST)Beantworten

Vielen Dank. --Liebe Grüße, Lómelinde Diskussion 06:23, 13. Apr. 2022 (CEST)Beantworten

→ Die 251er-Liste ist jetzt bis auf false positive auch leer. @Lómelinde, Wurgl: hier fände ich es gut, wenn Ihr da auch noch mal drüber schauen würdet. Vielen Dank, – Doc Taxon Disk. • 15:26, 13. Apr. 2022 (CEST)Beantworten

Ich habe mal ein paar Stichproben gemacht, ein schönes Beispiel ist diese Seite → vorher (alles in einer Zeile und dadurch breiter als 100%) ↔ nachher (passt auch auf schmale Bildschirme) Ich denke das war daher eine sinnvolle Änderung. --Liebe Grüße, Lómelinde Diskussion 15:57, 13. Apr. 2022 (CEST)Beantworten

Fehler bei Quoting

Es dreht sich um weiter oben, diese "1.139 Artikel". Einzelnachweis 36 Ja, der Bot hat hier Unsinn gemacht. Aber die Url war vorher schon im Bobbes. Verändert hat sich an der falschen Verlinkung nix, trotzdem ist es Unsinn.
Irgendwas ist da faul. Wenn ich den ersten Link so wie er gedacht war aufrufe, also Copy/Paste aus dem Quelltext, dann sehe ich ein recht sinnfreies Inhaltsverzeichnis. Beim Link wie er in EW 36 steht, komm ich auf die selbe sinnfreie Stelle. Aber! Dickes aber: Wenn ich jetzt in der Browser-History zurückgehe, dann sehe ich ein Schnippsel aus Seite 251, scheinbar die Einträge 37-41 auf der selben Stelle. Ich fass das jetzt nicht an, weil ich den Sinn dieses Einzelnachweise nicht begreife, was soll diese Liste bzw. das Schnippsel über Affären um gefälschte Spielerpässe nachweisen?
Frage: soll ich das irgendwie abfangen? In dem Fall ginge das, weil danach nochmals ein Parameter in der URL zu finden ist: &f=false --Wurgl (Diskussion) 07:34, 13. Apr. 2022 (CEST)Beantworten

Ja fang das mal ein, ich schaue gleich mal. Ist googlebook sollte lösbar sein. --Liebe Grüße, Lómelinde Diskussion 08:00, 13. Apr. 2022 (CEST)Beantworten

Ich habe versucht irgendetwas in der Leseprobe zu finden, was irgendwie passen könnte = nichts, nicht einmal das Datum 25. August 2003 gibt es dort. Daher komplett entfernt. --Liebe Grüße, Lómelinde Diskussion 08:30, 13. Apr. 2022 (CEST)Beantworten

Schönen Morgen! Ist denn der Fall damit erledigt? Können wir abhaken? – Doc Taxon

Disk. • 05:35, 16. Apr. 2022 (CEST)Beantworten

Nein natürlich nicht, es muss nur die Suche präzisiert werden, also beispielsweise wo die URL auf .html .htm .pdf oder ähnlichem endet müssten alle Fälle in denen daran direkt kursivtags anschließen also .html'' .htm'' .pdf'' zu .html '' .htm '' .pdf '' werden. In dem Beispiel war aber das Kursiv mitten innerhalb der URL Spezial:Diff/222023745 (https://books.google.de/…&q=''L%E2%80%99%C3%89v%C3%A9nement''%2C%2025.%20August%202003&f=false), das ist natürlich schwierig zu da herauszufiltern. Es sind noch immer hunderte und die kommen auch täglich neu hinzu. Ich habe die Zahlen oben mal aktualisiert, und das war ja auch bisher nur die Analyse für http: und es fehlt die identische Abfrage für https: Der ANR ist zwar jetzt fast sauber, aber wie gesagt das sind die Fälle die am häufigssten neu hinzu kommen und daher regelmäßig laufen sollten. --Liebe Grüße, Lómelinde Diskussion 06:22, 16. Apr. 2022 (CEST)Beantworten

Ich mach das jetzt nur nebenbei mit. Also wenn ich was anderes ändere, dann dies als Schmankerl zusätzlich. Es ändert sich ja nix in der Anzeige und auch die verlinkte URL bleibt gleich. Das Webarchiv archiviert auch ohne die Quotes. Das einzige was sich ändert ist das Verhalten des IABot. Ist mir persönlich etwas zu wenig um da den Bot extra über alle laufen zu lassen. Aber ich lass mich gerne von anderen überzeugen. @Mabschaaf, Doc Taxon: Habt ihr eine Meinung dazu? --Wurgl (Diskussion) 07:55, 16. Apr. 2022 (CEST)Beantworten

Der IABot läuft ja gerade nicht, weil er mit diesem Problem nicht umgehen kann. Insofern ist mM kein akuter Handlungsbedarf, aber nebenher bereinigen solltest Du auf alle Fälle. Kannst Du denn gezielt nach solchen URLs suchen, die eine öffnende und auch die schließende Kursivierung enthalten (wie das eine Beispiel oben)? Diese sollten mM schon abgearbeitet werden. Wartungsliste -> händisch sollte reichen. Ich erwarte da eher falsch positive wie [http://www.test.de''Website''] deren Weblinkbeschriftung nur aus einem Wort besteht.--Mabschaaf 08:40, 16. Apr. 2022 (CEST)Beantworten

Es ist teuflisch! Die Suche nach insource:/\[https?:\/\/[^\]' ]*''[^\]' ]*''/ fällt ins Timeout. Und der Dump (dewiki-latest-pages-articles-multistream.xml.bz2) enthält nur geradzahlige Namensbereiche und auch keine Benutzerseiten. Diskussionsseiten sind da nicht drinnen. Man müsste also beides kombinieren. --Wurgl (Diskussion) 09:33, 16. Apr. 2022 (CEST)Beantworten

Es gibt [1]. Dieser Dump enthält alle Namensbereiche. Andim (Diskussion) 11:00, 16. Apr. 2022 (CEST)Beantworten

Ja, ich schnapp mir den Task mal und baue alle Quotes aus den Links um. Geht aber nicht von jetzt auf gleich. – Doc Taxon Disk. • 20:21, 17. Apr. 2022 (CEST)Beantworten

Sind schon etwas weniger, ich komme stetig vorwärts. – Doc Taxon

Disk. • 18:04, 19. Apr. 2022 (CEST)Beantworten

strike-Tags

Die strike-Tags werden in Kürze mit s-Tags ersetzt. Dabei versuche ich, Zeilenumbrüche innerhalb dieser Tags zu lokalisieren. – Doc Taxon Disk. • 18:06, 19. Apr. 2022 (CEST)Beantworten

Der häufigste Fall für mit diesem oder dem s-Tags verursachten Fehlern (verschachtelte Tags) ist so etwas

<s>Beitrag gestrichen
: Anmerkung zum Beitrag</s> erl. Admin

Häufig bei den (Wikipedia:Löschkandidaten/Urheberrechtsverletzungen#2. April) Spezial:Diff/222116522/222117466. Ich habe mir schon die Finger wund geschrieben, um die abarbeitenden Admins irgendwie dazu zu bringen das zu unterlassen WD:Löschkandidaten/Urheberrechtsverletzungen#Bitte Linterfehler vermeiden. Es ist zwecklos. Wenn der Bot so etwas reparieren könnte wäre das auch wunderbar, denn das s muss wie small und code und span immer in der selben Zeile geschlossen werden in der es auch geöffnet wurde. --Liebe Grüße, Lómelinde Diskussion 18:29, 19. Apr. 2022 (CEST)Beantworten

Adminonly

...