Wikipedia:Technik/Archiv/Umstellung auf Unicode
Die deutsche Wikipedia verwendet zur Zeit den Zeichensatz ISO 8859-1 (auch als Latin-1 bekannt). Da dieser Zeichensatz nur 256 Zeichen umfasst, müssen Sonderzeichen mit so genannten HTML-Entities kodiert werden (Details siehe Wikipedia:Sonderzeichen), dadurch wird der Quellcode schlecht lesbar.
Viele Wikipedias setzen deshalb den Unicode-Zeichensatz UTF-8 ein, mit dem quasi jedes Zeichen dargestellt werden kann, etwa die japanische, polnische und die Esperanto-Wikipedia¹. Es existiert auch ein Konvertierungsprogramm, mit dem ISO-8859-1-Wikis auf UTF-8 umgestellt werden können; es wurde vor wenigen Tagen erfolgreich auf der französischen Wikipedia eingesetzt (Details auf Französisch). Das Programm wandelt auch HTML-Entities in die entsprechenden Unicodezeichen um.
Nachteile von Unicode
- Unicode wird von einigen älteren Browsern nicht oder nicht korrekt unterstützt (Internet Explorer 3, Netscape Navigator 3, aber auch Internet Explorer 5.1 unter MacOS 9). Viele dieser Browser unterstützen allerdings auch kein CSS, so dass die Wikipedia und der Rest des Internets mit ihnen ohnehin nur eingeschränkt nutzbar sind.
- Während der Umstellung (einige Stunden) wäre die deutsche Wikipedia schreibgeschützt und eine Zeit lang (<1 Std.) gar nicht erreichbar.
Vorteile von Unicode
- Bessere Lesbarkeit des Quellcodes.
- Einfachere Bedienbarkeit etwa per Zeichentabelle des Betriebssystems - HTML-Entities funktionieren dabei weiterhin.
- Probleme mit Windows (deutsche Anführungszeichen, Eurozeichen) und Mac (km2 statt km²) erledigen sich.
- Sonderzeichen in Artikelnamen werden möglich (z. B. für Lech Walesa, Vladimír Špidla).
Umstellung
Vor der Umstellung
Zunächst sollte ein möglichst vollständiger Test aller Browser gestartet werden, um herauszufinden, welche nicht Unicode-kompatibel sind. Hier können uns evtl. die Wikipedias helfen, die bereits Unicode verwenden.
Als nächstes müssen sämtliche Fehler in Artikeln gefunden und korrigiert werden, die von Windows verursacht wurden. Dabei dürfe es sich vor allem um deutsche Anführungszeichen, Eurozeichen und die OE-Litagur Œ handeln.
- (ach was, die lassen sich auch automatisch nach UTF-8 konvertieren) — Timwi 05:12, 22. Mär 2004 (CET)
Außerdem könnten einige Artikel Probleme verursachen, die derzeit HTML-Entities im Titel haben (z. B. Eulersche Phi-Funktion). Auf der französischen Wikipedia scheint aber das entsprechende Problem mit OE-Litaguren gelöst worden zu sein (Details auf Französisch).
Während der Umstellung
Die französische Wikipedia war von 23 bis 3 Uhr schreibgeschützt. Für die deutsche Wikipedia ist also mit ca. 7 Stunden zu rechnen. Einen Schreibschutz z. B. von 0 bis 7 Uhr halte ich für vertretbar.
Darin inbegriffen ist die Zeit, in der der konvertierte Index eingebunden wird; für diese Zeit ist die entsprechende Wikipedia allerdings überhaupt nicht erreichbar. Für die französische Wikipedia hat es ca. 20 Minuten gedauert, für die deutsche sind also mit ca. 45 Minuten zu rechnen.
Nach der Umstellung
Unklar ist noch, wie mit Browsern umgegangen werden soll, die kein Unicode beherrschen. Zur Zeit ist es wohl so, dass diese auf der französischen Wikipedia Sonderzeichen zerstören (vgl. Änderungen vom 21. März). Mit den vom Wikipedia-Server empfangenen User-Agent-Strings der Browser wären folgende Strategien denkbar:
- Vollständiger Schreibschutz für alle Nutzer von Browsern, die bekanntermaßen Seiten zerstören. Stattdessen wird eine Seite angezeigt, auf der auf die Problematik aufmerksam gemacht wird und mit der Bitte, einen vernünftigen Browser einzusetzen. Recht einfach zu programmieren - einige User-Agents werden bereits (komplett) blockiert, z. B. einige Web Spiders - allerdings ist es denkbar, dass wir Benutzer verärgern.
- Schreibschutz nur für Seiten, auf denen tatsächlich Sonderzeichen vorkommen (das dürften allerdings aufgrund der Interwiki-Links die meisten sein).
- Alternativ: Gegebenenfalls Umwandlung der Bearbeitungsseite in ASCII oder Latin-1, Konvertierung aller Sonderzeichen in HTML-Entities. Beim Abspeichern dann Rückkonvertierung in UTF-8. Problem: erhöhte Serverlast (minimal) und vor allem hoher Programmieraufwand; es ist zu bezweifeln, dass ein Developer sich der Aufgabe annehmen wird.
Geteste Browser
Bitte mit deinem Browser folgende Seite öffnen und kontrollieren. Ergebnis hier vermerken, wenn noch nicht existent.
Browser | 95 | 98 | NT/2k | ME | XP | ME | Linux | OS2 | MacOS 9 | MacOS X |
---|---|---|---|---|---|---|---|---|---|---|
les/schr. | les/schr. | les/schr. | les/schr. | les/schr. | les/schr. | les/schr. | les/schr. | les/schr. | les/schr. | |
IE 5.0 | -/- | -/- | *2/OK | -/- | -/- | -/- | -/- | ?/KO *7 | -/- | |
IE 5.5 | -/- | -/- | -/- | -/- | -/- | -/- | -/- | -/- | -/- | |
IE 6.0 | -/- | OK/ *6 | *2/OK | -/- | *2/OK | -/- | -/- | -/- | -/- | |
Mozilla 1.5 | -/- | -/- | -/- | -/- | OK/OK | -/- | -/- | -/- | -/- | -/- |
Mozilla 1.6 | -/- | -/- | OK/OK | -/- | -/- | -/- | -/- | -/- | -/- | -/- |
Mozilla 1.7b | -/- | -/- | -/- | -/- | OK*8/OK | -/- | -/- | -/- | -/- | -/- |
Firebird 0.8 | -/- | -/- | OK*9/OK*9 | -/- | -/- | -/- | -/- | -/- | -/- | -/- |
Firefox 0.8 | -/- | -/- | OK/OK | -/- | OK/OK | -/- | -/- | -/- | -/- | -/- |
Konqueror 3.1.0 | -/- | -/- | -/- | -/- | -/- | -/- | OK/OK*1 | -/- | -/- | -/- |
Konqueror 3.2.0 | -/- | -/- | -/- | -/- | -/- | -/- | OK*1/- | -/- | -/- | -/- |
Opera 6.0x | -/- | -/- | -/- | -/- | OK/OK | -/- | *3/OK | -/- | -/- | -/- |
Opera 7 | -/- | OK/OK*5 | OK/OK | -/- | OK/OK | -/- | OK/OK | -/- | -/- | -/- |
lynx 2.8 | -/- | -/- | -/- | -/- | -/- | -/- | *4/NO | -/- | -/- | -/- |
w3m 0.4 | -/- | -/- | -/- | -/- | -/- | -/- | -/OK | -/- | -/- | -/- |
Epiphany 1.0.6 | -/- | -/- | -/- | -/- | -/- | -/- | OK/OK | -/- | -/- | -/- |
Es sollte auch berücksichtigt werden, ob (unter Windows) derjenige "Arial Unicode MS" installiert hat (ist bei Office dabei), denn dann funktionert einiges, etwa Lautschrift, wesentlich besser.
*1: Konqueror 3.2.0 - Ich scheine die Seite zwar nicht zu zerschießen, bekam im Edit-Fenster aber nicht alles angezeigt. Font-Umstellung half allerdings.
Im 3.1.0 wurde alles angezeigt was sonst auch angezeigt wurde, wie gehabt wurden keine Lautschriftzeichen angezeigt, was aber am Font liegt. Bearbeitung war möglich.
*2:Alles außer der Lautschrift, die Firefox korrekt anzeigt. (Arial Unicode MS installiert)
*3Das kyrillische Zeichen wurde beim Editieren nicht angezeigt, aber nachdem Schreiben (Vorschau) doch wieder. Vermutung: Im Formularfenster zum Editieren wird ein anderer Font verwendet als im Text.
*4Die Zeichen wurden so angezeigt und dann auch so gespeichert [1]. Evtl. liegts am Terminal, weiß nich, ob das utf-8-fähig is.
5) mit 'Courier New' werden nicht alle Zeichen dargestellt (aber keine zerstörung)/ Umstellung auf 'Arial Unicode MS' behebt Problem
6) wie 5), aber Courier New lässt sich nicht durch Unicode Zeichensatz ersetzen
7) IE 5.1 unter MacOS 9.22 zerstört beim Speichern Sonderzeichen (Beispiel), in der französischen Wikipedia ist das Problem bekannt.
8) Das chinesische Schriftzeichen wird als Fragezeichen angezeigt.
9) Das arabische Schriftzeichen wird als Fragezeichen angezeigt.
Weiterführende Informationen
- Beschreibung der Konvertierungsprozedur (engl.)
- [2] ff., [3] ff. - Wikitech-Mailingliste zur Umstellung der französischen Wikipedia
- Debatte und Abstimmung auf der französischen Wikipedia (frz.)
1) Sämtliche Wikipedias laufen inzwischen auf UTF-8, bis auf die folgenden, die noch ISO 8859-1 verwenden: en, sv, nl, de, es, da, dk
Folgende Wikipedias wurden erfolgreich umgestellt: et, ia, la, af, cs, fr, pt, sl, bs, fy, vi, lt, fi, it, no, simple, gl, eu, nds, co, mr, id, lv, sw, tt, uk, vo, ga, na