Zum Inhalt springen

Wikipedia Diskussion:Technik/Archiv/Umstellung auf Unicode

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 13. Juli 2004 um 17:02 Uhr durch Wikinator (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 21 Jahren von Schnargel in Abschnitt Was fehlt jetzt noch?

Ältere und aktuell nicht unbedingt relevante Diskussionen wurden nach Wikipedia Diskussion:Umstellung auf Unicode/Archiv verschoben.

Sperre

Wieso ist es nötig den Schreibzugriff für die Dauer der Konvertierung zu sperren? Wie im Text bereits erwähnt, funktionieren HTML-Entities auch mit Unicode. Würde es nicht reichen in das Konvertierungstool ein Delay einzubauen, um die Last zu senken und es parallel zu den normalen Edits in der Nacht laufen zu lassen? — Matthäus Wander 00:22, 22. Mär 2004 (CET)

Siehe [1] - die Datenbank wird komplett kopiert, dann wird die Kopie mit einem externen Programm konvertiert. Während der Konvertierung wird noch die alte Datenbank angezeigt; wenn die Konvertierung abgeschlossen wird, wird sie aber gelöscht und die konvertierte Version neu eingespielt. Darum muss sie solange schreibgeschützt werden. Ich gehe davon aus, dass ein Lesezugriff während der ganzen Aktion möglich ist, bis auf die Phase, wo die konvertierte Version eingespielt wird. --Head 00:53, 22. Mär 2004 (CET)


Seiten mit HTML-Entities im Titel

Bitte hier Seiten (auch Redirects) zusammentragen, die HTML-Entities im Titel haben. Diese werden nämlich bei der Konvertierung nicht automatisch umbenannt, sondern müssen anschließend manuell verschoben werden.

Wie ist das mit Umlauten wie in Pferdestärke? -Bill Öŝn 11:29, 31. Mär 2004 (CEST)

Hier geht's nicht um die Sonderzeichen selbst, sondern nur um deren Kodierung. Im Prinzip gilt das auch für Umlaute. Da die Kodierung von Umlauten in ISO-8859-1 jedoch kein Problem darstellt wird kaum jemand schreiben „Pferdestärke“ (Namensentität), oder „Pferdestärke“ (numerische (dezimale) Entität), sondern einfach „Pferdestärke“ (d.h. direkte Verwendung von „ä“ in ISO-8859-1-Kodierung - bei Verwendung in der URI werden diese vom Browser automatisch URI-kodiert). Es geht darum, solche Sonderzeichen zu finden, die als Entität (also als „&irgenwas;“) kodiert werden. --SteffenB 14:26, 31. Mär 2004 (CEST)


Browser-FAQ

Ich habe mal Wikipedia:Browser-FAQ gestartet. Wäre gut, wenn da jemand helfen könnte. --Head 16:41, 14. Apr 2004 (CEST)

Was fehlt jetzt noch?

Mich würde interessieren, in welchem Zeitraum mit einer Umstellung zu rechnen ist. Eigentlich fehlt doch nicht mehr viel oder interpretiere ich das falsch? Stern 23:45, 4. Mai 2004 (CEST)Beantworten

Würde ich auch gerne wissen. Wie gesagt, je länger wir warten, desto mehr Artikel werden umgestellt, ich würde ein spätestens-Datum vorschlagen (Bsp.: Ende 2004). Allerdings sollte für alle Seiten, die ein Unicode-Sonderzeichen (oder auch nicht-Unicode) enthalten gemäß Namenskonventionen ein Redirect eingesetzt werden. Ich freue mich auf Unicode! -- Jan G 08:12, 6. Mai 2004 (CEST)Beantworten

Wird es nach der Unicodeumstellung eigentlich nicht mehr möglich sein, HTML-Entitäten zu verwenden (was ich schade fände)? Stern 22:57, 7. Mai 2004 (CEST)Beantworten

Soweit ich das verstanden habe, kann man nachher noch genauso wie vorher HTML-Entitäten verwenden, es geht darum, dass man nicht mehr muss.
Ich würd auch sagen: Energie!
Das größte Problem ist wohl IE unter Mac OS. Meinungen dazu? – Hokanomono|Diskussion 11:32, 10. Mai 2004 (CEST)Beantworten
wenn ich das richtig sehe, gibt es da Ausweichmöglichkeiten? Ich bin für sofortiges Umstellen! (wie schon ganz oben geschrieben) -- Schusch 12:09, 10. Mai 2004 (CEST)Beantworten

Wenn man wirklich so viel Angst vor der Umstellung hat, erkundige man sich doch bei Wikipedias, die schon länger Unicode verwenden, wie sie die Probleme gelöst haben (falls diese bei denen überhaupt auftraten). -- Jan G 07:42, 18. Mai 2004 (CEST)Beantworten

  • Die Angst ist durchaus berechtigt. Die umgestellten Wiki sind entweder sehr klein, oder stammen aus Gegenden, wo man schon immer mit ISO8859-1 nicht sehr weit kam und daher andere Browser verwendet hat. Es ist kein Zufall, dass für die 6 verbliebenen 8859er Wikis gilt:
    • Alle 6 gehören zu den 12 größten Wikipedias
    • 5 von 6 sind germanische Sprachen (die traditonell (genauso wie Spanisch) in 8859-1 geschrieben werden)
welcher anonymus das auch immer geschrieben haben mag - welche "Angst"? Wenn, dann ist es Vorsicht - allerdings wird die Umstellung eben mit jedem Tag (mit jedem Artikel) mühsamer, und sie kommt irgendwann doch. Zum Thema "kein Zufall" - soweit ich weiß (da kann ich mich irren, aber das ist auch nicht so wichtig) fehlt im französischen ein Buchstabe, das "oe" in iso-8859-1 ... das heißt, sie kommen unserer Situation immerhin sehr nahe, und es scheint funktioniert zu haben - klar kann man immer vorsichtig sein ... aber ich bin weiterhin für eine sofortige Umstellung! Damit schließlich würden wir uns auch von der amerikanisierung unseres Zeichensatzes endlich lossagen und ein wesentlich größeren Zeichensatz zur Verfügung haben - man muß ja nicht gleich alles benutzen, aber zumindest die Basis ist dann geschaffen -- Schusch 00:43, 20. Mai 2004 (CEST)Beantworten
Bei der Gelegenheit möchte ich mal darauf hinweisen, dass das deutsche Wiktionary bereits umgestellt. Aus den Erfahrungen, die ich dabei gesammelt habe, möchte ich vorerst gegen einen Umstieg stimmen. Es gibt immenoch Seiten, die falsch angezeigt werden (die Auflistung der Spezialseiten zum Beispiel) und alle MediaWikibausteine mussten überarbeitet weden. Außerdem waren kurzfristig alle Versionen nicht erreichbar, die vor der umstellung lagen (wir sind nicht sicher, ob jetzt alle da sind). Nur meine Meinung. --DaB. 10:04, 20. Mai 2004 (CEST)Beantworten
  • Abgesehen von den Umstellungsschwierigkeiten: Gibt es denn Schwierikeiten (welche) bei der Anlage und Bearbeitung von Artikeln?
  • Schusch:"Welche Angst?": 6. Wort im Beitrag von Jan G.
    Umstellung von fr: offenbar ist fr die einzige große Wiki, die je umgestellt wurde. Es hat dort Schwierigkeiten gegeben, aber immerhin kann man auf der Basis der dortigen Erfahrungen es in de besser machen. In en gibt es eine Unicode-Diskussion mit der Essenz, dass es vermutlich nie eine Umstellung geben würde, erst die Umstellung von fr hat dort eine Aussicht auf Machbarkeit aufgezeigt.
    "wesentlich größerer Zeichensatz/Lossagung von der Amerikanisierung":Ja genau! Künftig nur noch deutſche Schrift (ausser für die Schweizer) und immer den Unterſchied von ſ und s beachten :-)


Es fehlt nichts mehr außer "Bescheid" zu sagen. In der französischen Wikipedia gibt es etwa alle zwei Wochen eine durch falsche Browser zerschossene Seite und um das zu reparieren sind wohl genug Benutzer da. -- Müssen wir jetzt über die Umstellung abstimmen oder gehts diesmal ohne? -- Schnargel 21:21, 21. Mai 2004 (CEST)Beantworten

Argumente gegen die sofortige Umstellung gibt es nicht gerade Kistenweise. Es sind:
  • Netscape 4 kommt damit nicht zurecht - wobei das nicht viel am aktuellen Zustand ändert, die Startseite ist ihm auch schon zu hoch.
  • MSIE auf MacOS macht Unicode kaputt. Das Ding ist rapide dabei, selten zu werden. Die Kompatibilität zur Windows-Version hält sich gewaltig in Grenzen, so dass das kein Argument ist ihn zu erhalten. Afaik gibt es sogar in Frankreich mehr Mac-User als hier...
  • Einige Textbrowser brauchen spezielle Einstellungen.
alle diese Problemkinder haben eines gemeinsam: sie sind selten und werden noch seltener. Ich rechne nicht mit Problemen, die nicht binnen Tagen (=einmal versucht, dann erkannt dass der benutzte Browser nix taugt) weg sind. TheK 18:59, 2. Jun 2004 (CEST)


Testlauf?

Da das ganze hier nicht wirklich vorwärts geht und einige immer noch starke Bedenken haben, würde ich vorschlagen, einen Testlauf mit einer Kopie zu starten.

Der einfachste Weg wäre wohl, die Developer zu bitten, de2.wikipedia.org oder so einzurichten und es auf UTF-8 umzustellen. Das hätte auch den Vorteil, dass diejenigen, die nachher die echte Wikipedia umstellen, schonmal "üben" können. Allerdings könnte ich mir vorstellen, dass die DB-Server sowieso schon ächzen und eine Test-Konvertierung sie in die Knie zwängen könnte.

Darum die Alternatividee: jemand setzt eine lokale Wikipedia-Kopie auf, lädt sich das Konvertierungsscript von Med runter und stellt auf UTF-8 um. Ich würd das gern machen, hab aber leider absolut keine Ahnung von Apache, SQL und php, am besten macht es also jemand, der schonmal eine lokale Wikipedia aufgesetzt hat.

Anschließend versuchen alle ein paar Tage lang, das ganze mit verschiedenen Browsern kaputtzukriegen. Mit den Ergebnissen könnten wir dann die Browserliste und die Browser-FAQ weiter füllen und ein Gefühl dafür entwickeln, an welchen typischen Fehlern man nicht-kompatible Browser erkennt, um dann den entsprechenden Benutzern möglichst schnell Hinweistexte auf die Diskussionsseite stellen zu können. --Head 00:59, 5. Jun 2004 (CEST)

Zustimmung (aber keine Möglichkeit für einen Webserver) -- Schusch 01:36, 5. Jun 2004 (CEST)
Gute Idee. --DaB. 12:57, 12. Jun 2004 (CEST)
Auf in die Zukunft! -- sk 14:41, 12. Jun 2004 (CEST)
Ein Testlauf wäre wirklich nicht schlecht. --zeno 10:49, 13. Jul 2004 (CEST)

Usernamen / "impostor"

Werden Usernamen nach der Umstellung ebenfalls Unicode-Zeichen enthalten können? Ich bin entschieden dagegen, da sich Trolle unter Usernamen anmelden würden, die denen anderer Wikipedianer (auch und gerade Sysops) sehr ähnlich sehen werden. Geschehen auf der englischen Wikipedia mit einem Troll, der sich mit RìckK, RickK·, RïckK, RíckK anmeldete und sich als Sysop RickK ausgab. Unicode bietet eine Unmenge von Zeichen, die gleich aussehen, aber unterschiedliche Codes haben. -- Stw 01:35, 12. Jun 2004 (CEST)

Wozu sollen solche Trolle Unicode nehmen: Du hast gerade perfekt demonstriert, dass es auch mit 8859-1 geht. Solche Probleme gab's auch mit Ex-Thomasx1, der sich als Ulrich Fuchs (statt Ulrich.Fuchs) oder so ähnlich ausgab, etc. -- Ichs Meinung 11:16, 2. Jul 2004 (CEST)
Mit Unicode kann man Benutzernamen noch viel besser fälschen. Es gibt im Unicode Buchstaben, die komplett identisch aussehen, aber einen anderen Code haben. Das trifft wohl besonders auf "e" und "c" zu. Bei den 8859-1 sehen die Buchstaben noch leicht unterschiedlich aus, bei Unicode wären sie identisch! --DaB. 00:53, 8. Jul 2004 (CEST)
Es gibt sogar ein Feature hier, mit dem ich einstellen kann, welcher Name bei einer Tildenunterschrift angezeigt werden soll. Ausserdem braucht man nicht mit Tilden unterschreiben, sondern kann auch direkt eine gefälscht Unterschrift in den Wikitext schreiben. Bei der Versionsgeschichte ist das meines Erachtens nicht so kritisch, da der Link zur richtigen Seite führt und Beschwerden daher an der richtigen Adresse ankommen. Ansonsten gilt sinnvolles Handeln. Wenn jemand einen Benutzernamen fälscht und damit vandaliert, wird er eben gesperrt. Wozu seid ihr Admins? -- Dishayloo [ +] 12:01, 8. Jul 2004 (CEST)

Ich bin ebenfalls defintiv für die Umstellung auf Unicode. Eins sollte allen hier klar sein: Je länger wir warten desto komplizierter wird es (längere dowtime etc.

ein paar interessante Fakten zu Problembrowsern

  • Netscape 4/Linux stellt die utf-8 Seite im Bearbeiten-Fenster nur bis zum ersten ihm bekannten Sonderzeichen dar, dann ist Ende. Es ist also nicht zu übersehen, dass das nix wird.
  • Die Anzeige der Startseite in Netscape 4 ist einfach zu beschreiben: es wird alles übereinander angezeigt, auf nds: sieht man gleich gar nichts. Beide Versionen sind mit dem "Ding" also nicht wirklich benutzbar.
  • auf fr: waren bei der Umstellung 6,5% Problembrowser, heute sind es 2,5%. Bei uns sind es derzeit unter 1%.
TheK 17:27, 7. Jul 2004 (CEST)

Spanische Wikipedia wird umgestellt

Zur Information: die spanische Wikipedia plant ihre UTF-8-Umstellung [2]. Sie haben ebenso wie die französische Wikipedia eine Abstimmung abgehalten, die 8:1 ausging (bei den Franzosen 25:1 oder so). Sollten wir auch ein Meinungsbild starten? Für die, die spanisch können: es:Wikipedia:Paso a UTF-8 --Head Diskussion 17:44, 12. Jul 2004 (CEST)

Meinungsbild

dann fangen wir doch an. Modalitäten würd' ich wie bei Adminwahl vorschlagen.

pro (Umstellung auf Unicode)

  1. TheK 23:37, 12. Jul 2004 (CEST)
  2. Head Diskussion 00:06, 13. Jul 2004 (CEST)
  3. Paddy 00:18, 13. Jul 2004 (CEST)
  4. Sansculotte 00:20, 13. Jul 2004 (CEST)
  5. Sicherlich 00:21, 13. Jul 2004 (CEST)
  6. TG 00:30, 13. Jul 2004 (CEST) 00:22, 13. Jul 2004 (CEST) (ich gehe mal davon, dass "Unicode" UTF-8 meint und nicht UCS-2?)
  7. Ilja 00:52, 13. Jul 2004 (CEST)
  8. Schusch 01:07, 13. Jul 2004 (CEST)
  9. एरिक(Eric) 06:22, 13. Jul 2004 (CEST)
  10. Henning.H 09:34, 13. Jul 2004 (CEST)
  11. sk 09:41, 13. Jul 2004 (CEST)
  12. Tkarcher 09:42, 13. Jul 2004 (CEST)
  13. --zeno 10:42, 13. Jul 2004 (CEST)
  14. “Remember me!” Benutzer Diskussion:Leonard Vertighel 12:25, 13. Jul 2004 (CEST)
  15. Wikinator (Diskussion) 17:02, 13. Jul 2004 (CEST)pro

contra

  1. Dagegen.Noch gibt es zu viele ungeklärte Probleme, --DaB. 23:38, 12. Jul 2004 (CEST)
  2. Dem schließe ich mich an. -- Stechlin 07:40, 13. Jul 2004 (CEST)

Kommentare

Schon mal eine Bitte an die Pro-Fraktion (die wahrscheinlich gewinnen wird): Bildet schon mal eine Task-Force, die sich um die ganzen Fragen von normalen User kümmert (a lá: "Da sind Kasten im Artikel", "Die Sonderzeichen sind hin" etc.) ;-) --DaB. 23:43, 12. Jul 2004 (CEST)
diese gibt es (Head's Browser-FAQ!). Kästen bei Sonderzeichen, die vorher nicht da waren (!), wurden nicht gesichtet. TheK 23:44, 12. Jul 2004 (CEST)
Die Fragen werden trotzdem auf Wikipedia:Ich brauche Hilfe gestellt werden. Und die sollten dann von Pro-Stimmern beantwortet werden. --DaB. 00:00, 13. Jul 2004 (CEST)