Zum Inhalt springen

Wikipedia Diskussion:Technik/Archiv/Umstellung auf Unicode

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 25. März 2004 um 01:55 Uhr durch SteffenB~dewiki (Diskussion | Beiträge) (Einige Seiten mit Character-Entitäten im Titel). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Wieso ist es nötig den Schreibzugriff für die Dauer der Konvertierung zu sperren? Wie im Text bereits erwähnt, funktionieren HTML-Entities auch mit Unicode. Würde es nicht reichen in das Konvertierungstool ein Delay einzubauen, um die Last zu senken und es parallel zu den normalen Edits in der Nacht laufen zu lassen? — Matthäus Wander 00:22, 22. Mär 2004 (CET)

Siehe [1] - die Datenbank wird komplett kopiert, dann wird die Kopie mit einem externen Programm konvertiert. Während der Konvertierung wird noch die alte Datenbank angezeigt; wenn die Konvertierung abgeschlossen wird, wird sie aber gelöscht und die konvertierte Version neu eingespielt. Darum muss sie solange schreibgeschützt werden. Ich gehe davon aus, dass ein Lesezugriff während der ganzen Aktion möglich ist, bis auf die Phase, wo die konvertierte Version eingespielt wird. --Head 00:53, 22. Mär 2004 (CET)

also, ich fände eine Umstellung gut - sie wird eh kommen, warum also nicht jetzt? Und natürlich trifft es einige (mich auch, ich kann eines meiner älteren Stücke nicht mehr einsetzen, aber mit dem macht es eh keinen Spaß mehr im www zu surfen). Wenn die Wikipedia einen halben Tag (bz.w eine halbe Nacht) offline ist, sollte das zu verkraften sein - eine Hinweisseite, die solange alternativ erscheint, wäre allerdings sehr gut! -- Schusch 00:38, 22. Mär 2004 (CET)

  • Auch ich warte seit langem sehnsüchtig auf die Umstellung, damit endlich auch rumänische und polnische Artikelnamen möglich werden. Stern 00:43, 22. Mär 2004 (CET)
    • yep, me wartet auch schon lange auf problemlose tschechische artikelnamen. southpark 00:58, 22. Mär 2004 (CET)

Man könnte zusätzlich zu #1 auch auf jeder Bearbeiten-Seite ein "Falle" für Nicht-Unicode-fähige Browser einbauen. Das heißt, man setzt irgendwo ein verstecktes Feld, das einige spezielle Unicode-Zeichen enthält. Kommen diese nicht richtig an, wird der geänderte Text nicht angenommen und der User-Agent-String in der Datenbank vermerkt. -- 3247 00:56, 22. Mär 2004 (CET)

Das Problem ist wohl angeblich auch, dass einige Browser Unicode zwar richtig lesen, aber nicht richtig schreiben können (weiß nichts genaueres darüber, ich glaube, Brion hat so etwas mal im Chat erwähnt). Absolut nötig wäre jedenfalls ein ausführlicher Test, für den wir z. B. einige Unicode-Zeichen auswählen (das ' scheint z. B. auf MacOS 9 / IE 5 Probleme zu machen) und diesen mit verschiedenen Browsern auf der französischen Spielwiese zu schreiben und zu lesen. Vorher sollten wir aber unbedingt bei den Unicode-Wikipedias nachfragen, in welcher Form sich die Probleme auftreten, etwa um die Zeichen auszuwählen. --Head 01:09, 22. Mär 2004 (CET)
Können wir nicht ein paar Seiten als Unicode- Spielweise einrichten? Und sei es, dass interessierte auf einem bereits umgestellten Wikipedia einen "Benutzer:Unicode" einrichten und unter "Benutzer:Unicode/Test1" (und so weiter) spaßeshalber ein paar Artikel schreiben und in einer Diskussion ihre Probleme beschreiben? Ansonsten denke ich, die Umstellung wird auf jeden Fall kommen, also solten wir auf der Hauptseite schon mal eine Ankündigung aufnehmen, ggf. mit Auflistung der Browser, die beizeiten Ersetzt werden sollten, um Wikipedia-Kompatibilität zu gewährleisten.-- RainerBi 07:34, 22. Mär 2004 (CET)
Als Spielwiese könnt ihr diese Unterseite meiner Benutzerseite auf fr: benutzen: fr:Utilisateur:Head/Unicode-Test --Head 16:11, 22. Mär 2004 (CET)
stellt mit mozilla 1.6 unter linux lauter hybsche zeichen dar - aber ob's auch die richtigen sind? -- D 23:40, 22. Mär 2004 (CET)
Ich habe Head schon gebeten, auf der Seite dazuzuschreiben, welche Zeichen man sehen soll. Wird er bestimmt bald machen. --DaB. 23:51, 22. Mär 2004 (CET)
sinnvoll wäre vielleicht auch, einfach mal eine seite zu editieren und wieder zu speichern - dann sieht man, ob der browser nur kaputte zeichen darstellt, oder auch kaputt speichert. -- D 00:24, 23. Mär 2004 (CET)
Ich finde Beta-Versionen müssen nicht unbedingt in die Tabelle aufgenommen werden. Was Mozilla 1.6 konnte wird Mozilla 1.7 ohne b vermutlich auch können. Das Problem mit der Lautschrift beim IE ([ʃɪˈkaːɡəʊ]) besteht auch beim Längezeichen (Hora̱̲z), wie man es aus diversen Lexika kennt. Wie kann man sicherstellen, dass nicht ein unbedarfter IE-Nutzer, dem Mark Anton sein Längezeichen klaut, weil er das für Kästchenmüll hält? Könnte man vielleicht für IE-Nutzer irgendwo einen kleinen Hinweis à la "Bitte nehmen Sie zur Kenntnis, dass nur das Einstellen einer Unicode-Schrift wie z.B. Arial Unicode MS oder Lucida Sans Unicode oder eines Browsers der Unicode besser unterstützt eine fehlerfreie Anzeige gewährleistet" anbringen; den User-Agent auswerten vielleicht, damit die Nutzer anderer Browser, die das auch so können, nicht genervt werden? --128.176.76.15 12:19, 23. Mär 2004 (CET)
Könnte man nicht den User-Agenten auswerten und dann nur für den IE eine eigene CSS-Datei erstellen, in der dann "Arial Unicode MS" und "Lucida Sans Unicode" festgelegt wird? --128.176.76.232 17:39, 23. Mär 2004 (CET)

Ich habe mal eine Vergleichsseite mit HTML-Entities erstellt, um beim Test die Probleme auszufiltern, die lediglich auf fehlende Fonts zurückzuführen sind. Der Test soll ja schließlich Aufschlüsse darüber geben, ob sich durch eine Umstellung auf UTF-8 etwas verschlechtern würde. --Head 16:19, 23. Mär 2004 (CET)

Wenn ich das richtig verstanden habe, dann lassen sich mit UTF-16 und UTF-32 noch mehr Zeichen aus den wildesten Sprachen darstellen. (Richtig?) Warum stellen wir dann nicht gleich auf UTF-16 oder UTF-32 um? Gibt es da Browserprobleme? -- sk 09:39, 22. Mär 2004 (CET)

Nein, das ist nicht so. utf8, -16 und -32 sind verschiedene Kodierungen von Unicode. Sie stellen alle sämtliche Zeichen dar und sind austauschbar. Bei Buchstabenschriften ist die utf8-Kodierung kürzer, bei Bildschriften (CJK)) ist utf16 besser. utf32 ist immer am längsten, aber einfacher zu programmieren. Im Web wird nur utf8 verwendet. 195.93.72.17 10:50, 22. Mär 2004 (CET)
Besten Dank für die Aufklärung. Vielleicht kann ja mal ein Wissender die Artikel UTF-16 und UTF-32 anfangen! ;-) -- sk 11:14, 22. Mär 2004 (CET)
Wichtiger noch als die unterschiedliche Effizienz der unterschiedlichen UTF-Kodierungen ist deren unterschiedliche Kompatibilität (bzw. Protierbarkeit) mit (bzw. beim Übergang von) US-ASCII bzw. einer ISO-8859-Varianten:
  • Beim Übergang von den genannten 1-Byte-Kodierungen zu utf-8 bleiben alle Zeichne mit einer Ordnungszahl kleiner #127 unverändert, insbesondere also alle gewöhnlichen Buchstaben. Lediglich nicht-US-ASCII-Zeichen werden multibyte-kodiert. Deutscher Text, mit seinem hohen Anteil gewähnlicher Buchstaben, bleibt damit in utf-8-Kodierung auch auf einem System lesbar, das utf-8 nicht unterstützt („nur“ die Sonderzeichen erscheinen dann „verhunzt“)
  • Bei den beiden anderen UTF-Varianten werden alle Zeichen in mehreren Bytes kodiert. Ein System das diese Kodierung nicht unterstützt zeigt dann ausschließlich Müll an!
  • (Anmerkung: bitte nagelt mich jetzt nicht darauf fest, exakt ab welchen Zeichen bei utf-8 multibyte-kodiert wird. Auf jeden Fall jedoch oberhalb der gewöhnlichen Buchstaben, d.h. insbesondere deutsche Umlauten. werden 2-byte-kodiert.)--SteffenB 14:32, 24. Mär 2004 (CET)

Noch was Anderes:
Ich werde gleich mal den utf-8-Test durchführen. Kann danach mal jemand mit installiertem arabischen und chinesischem Zeichensatz überprüfen, ob diese beiden multibyte-Zeichen noch korrekt angezeigt werden? Danke! :-) --SteffenB 14:32, 24. Mär 2004 (CET)

Seiten mit HTML-Entities im Titel

Bitte hier Seiten zusammentragen, die HTML-Entities im Titel haben. Diese werden nämlich bei der Konvertierung nicht automatisch umbenannt, sondern müssen anschließend manuell verschoben werden.

--SteffenB 00:55, 25. Mär 2004 (CET)