Zum Inhalt springen

Wikipedia:Technik/Archiv/Umstellung auf Unicode

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 22. März 2004 um 20:13 Uhr durch DaB. (Diskussion | Beiträge) (Liste in tabelle umgewandelt (Rahmen fehlt noch)). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die deutsche Wikipedia verwendet zur Zeit den Zeichensatz ISO 8859-1 (auch als Latin-1 bekannt). Da dieser Zeichensatz nur 256 Zeichen umfasst, müssen Sonderzeichen mit so genannten HTML-Entities kodiert werden (Details siehe Wikipedia:Sonderzeichen), dadurch wird der Quellcode schlecht lesbar.

Viele Wikipedias setzen deshalb den Unicode-Zeichensatz UTF-8 ein, mit dem quasi jedes Zeichen dargestellt werden kann, etwa die japanische, polnische und die Esperanto-Wikipedia¹. Es existiert auch ein Konvertierungsprogramm, mit dem ISO-8859-1-Wikis auf UTF-8 umgestellt werden können; es wurde vor wenigen Tagen erfolgreich auf der französischen Wikipedia eingesetzt (Details auf Französisch). Das Programm wandelt auch HTML-Entities in die entsprechenden Unicodezeichen um.

Nachteile von Unicode

  • Unicode wird von einigen älteren Browsern nicht oder nicht korrekt unterstützt (Internet Explorer 3, Netscape Navigator 3, aber auch Internet Explorer 5.1 unter MacOS 9). Viele dieser Browser unterstützen allerdings auch kein CSS, so dass die Wikipedia und der Rest des Internets mit ihnen ohnehin nur eingeschränkt nutzbar sind.
  • Während der Umstellung (einige Stunden) wäre die deutsche Wikipedia nicht erreichbar bzw. schreibgeschützt.

Vorteile von Unicode

  • Bessere Lesbarkeit des Quellcodes.
  • Einfachere Bedienbarkeit etwa per Zeichentabelle des Betriebssystems - HTML-Entities funktionieren dabei weiterhin.
  • Probleme mit Windows (deutsche Anführungszeichen, Eurozeichen) und Mac (km2 statt km²) erledigen sich.
  • Sonderzeichen in Artikelnamen werden möglich (z. B. für Lech Walesa, Vladimír Špidla).

Umstellung

Vor der Umstellung

Zunächst sollte ein möglichst vollständiger Test aller Browser gestartet werden, um herauszufinden, welche nicht Unicode-kompatibel sind. Hier können uns evtl. die Wikipedias helfen, die bereits Unicode verwenden.

Als nächstes müssen sämtliche Fehler in Artikeln gefunden und korrigiert werden, die von Windows verursacht wurden. Dabei dürfe es sich vor allem um deutsche Anführungszeichen, Eurozeichen und die OE-Litagur Œ handeln.

(ach was, die lassen sich auch automatisch nach UTF-8 konvertieren) — Timwi 05:12, 22. Mär 2004 (CET)

Außerdem könnten einige Artikel Probleme verursachen, die derzeit HTML-Entities im Titel haben (z. B. Eulersche Phi-Funktion). Auf der französischen Wikipedia scheint aber das entsprechende Problem mit OE-Litaguren gelöst worden zu sein (Details auf Französisch).

Während der Umstellung

Die französische Wikipedia war von 23 bis 3 Uhr schreibgeschützt (evtl. zeitweise überhaupt nicht verfügbar, weiß ich nicht genau). Für die deutsche Wikipedia ist also mit ca. 7 Stunden zu rechnen. Einen Schreibschutz z. B. von 0 bis 7 Uhr halte ich für vertretbar.

Nach der Umstellung

Unklar ist noch, wie mit Browsern umgegangen werden soll, die kein Unicode beherrschen. Zur Zeit ist es wohl so, dass diese auf der französischen Wikipedia Sonderzeichen zerstören (vgl. [http://fr.wikipedia.org/w/wiki.phtml?title=Terre&action=history Änderungen vom 21. März). Mit den vom Wikipedia-Server empfangenen User-Agent-Strings der Browser wären folgende Strategien denkbar:

  1. Vollständiger Schreibschutz für alle Nutzer von Browsern, die bekanntermaßen Seiten zerstören. Stattdessen wird eine Seite angezeigt, auf der auf die Problematik aufmerksam gemacht wird und mit der Bitte, einen vernünftigen Browser einzusetzen. Recht einfach zu programmieren - einige User-Agents werden bereits (komplett) blockiert, z. B. einige Web Spiders - allerdings ist es denkbar, dass wir Benutzer verärgern.
  2. Schreibschutz nur für Seiten, auf denen tatsächlich Sonderzeichen vorkommen (das dürften allerdings aufgrund der Interwiki-Links die meisten sein).
  3. Alternativ: Gegebenenfalls Umwandlung der Bearbeitungsseite in ASCII oder Latin-1, Konvertierung aller Sonderzeichen in HTML-Entities. Beim Abspeichern dann Rückkonvertierung in UTF-8. Problem: erhöhte Serverlast (minimal) und vor allem hoher Programmieraufwand; es ist zu bezweifeln, dass ein Developer sich der Aufgabe annehmen wird.

Geteste Browser

Geteste Browser

Bitte mit deinem Browser folgende Seite] öffnen und kontrollieren. Ergebnis hier vermerken, wenn noch nicht existent.

Browser 95 98 NT ME XP ME Linux OS2
les/schr. les/schr. les/schr. les/schr. les/schr. les/schr. les/schr. les/schr.
IE 5.0 -/- -/- -/- -/- -/- -/- -/- -/-
IE 5.5 -/- -/- -/- -/- -/- -/- -/- -/-
IE 6.0 -/- -/- -/- -/- -/- -/- -/- -/-
Mozialla 1.6 -/- -/- -/- -/- -/- -/- -/- -/-
Firefox 0.8 -/- -/- -/- -/- OK/- -/- -/- -/-
  • Konqueror 3.2.0 - Ich scheine die Seite zwar nicht zu zerschießen, krieg aber im Edit-Fenster nicht alles angezeigt. Ist vermutlich ein Font-Problem meinerseits Uli 19:09, 22. Mär 2004 (CET)

Weiterführende Informationen


1) Sämtliche Wikipedias laufen inzwischen auf UTF-8, bis auf die folgenden, die noch ISO 8859-1 verwenden: en, sv, nl, de, es, da, dk

Folgende Wikipedias wurden erfolgreich umgestellt: et, ia, la, af, cs, fr, pt, sl, bs, fy, vi, lt, fi, it, no, simple, gl, eu, nds, co, mr, id, lv, sw, tt, uk, vo, ga, na