Diskussion:Unicode Transformation Format
Alte Versionsgeschichte
Versionsgeschichte des Abschnitts "Unicode Transformationsformate" bis zum 05.12.2004, 19:14 Uhr:
- 23:18, 4. Dez 2004 . . 217.235.235.203 (/* UTF-16 */)
- 23:14, 4. Dez 2004 . . 217.235.235.203 (/* UTF-16 */)
- 17:39, 4. Dez 2004 . . Pjacobi (/* UTF-8 */)
- 16:38, 4. Dez 2004 . . 80.139.43.250 (/* UTF-32 */)
- 16:37, 4. Dez 2004 . . 80.139.43.250 (/* UTF-32 */)
- 03:11, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 */)
- 03:10, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 */)
- 01:33, 4. Dez 2004 . . 217.235.227.250 (/* Unicode Transformation Formate */)
- 01:32, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 */)
- 01:29, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 */)
- 01:24, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 (UCS-2) */)
- 00:59, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 */)
- 00:38, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 (UCS-4) */)
- 00:37, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 (UCS-4) */)
- 17:45, 3. Dez 2004 . . 62.245.168.210 (/* UTF-32 (UCS-4) */)
- 17:41, 3. Dez 2004 . . 62.245.168.210 (/* UTF-32 (UCS-4) */)
- 17:27, 2. Dez 2004 . . 62.245.168.210 (/* Unicode Transformation Formate */)
- 17:24, 2. Dez 2004 . . 62.245.168.210 (/* Unicode Transformation Formate */)
- 01:21, 2. Dez 2004 . . 217.235.224.31 (/* Unicode Transformation Formate */)
- 19:58, 1. Dez 2004 . . Jan G (interwiki raus (kommt an falscher Stelle vor – in UTF bereits neu eingetragen).)
- 19:53, 1. Dez 2004 . . Jan G (/* UTF-7 (eingestellt) */ Anführungszeichen)
- 12:09, 26. Nov 2004 . . 80.134.167.8 (/* Unicode Transformation Formats */)
- 14:21, 18. Nov 2004 . . 141.71.1.191 (/* UTF-7 (eingestellt) */)
- 14:21, 18. Nov 2004 . . 141.71.1.191 (/* UTF-7 (eingestellt) */)
- 09:30, 29. Okt 2004 . . 194.77.39.25 ()
- 15:53, 27. Okt 2004 . . 145.253.32.3 (/* Unicode Transformation Formats */)
- 12:28, 26. Okt 2004 . . 195.138.51.10 (/* UTF-16 (UCS-2) */)
- 15:59, 23. Okt 2004 . . 80.130.54.77 (/* Unicode Transformation Formats */ typo)
- 16:42, 20. Okt 2004 . . 212.144.142.113 (/* Unicode Transformation Formats */)
- 02:40, 20. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 12:37, 19. Okt 2004 . . 80.128.103.237 (/* UTF-32 */ Kommentar vergessen sorry! Es muss "Das heißt" statt "Dass heisst" heißen.)
- 12:32, 19. Okt 2004 . . 80.128.103.237 (/* UTF-32 */)
- 17:25, 17. Okt 2004 . . 212.202.73.77 (Komma korrigiert)
- 15:24, 17. Okt 2004 . . Pjacobi (hallo anon, bitte beim nächstenmal auf die diskussion gucken)
- 15:12, 17. Okt 2004 . . Pjacobi (/* UTF-7 - UCS-2 */)
- 14:22, 17. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 13:10, 17. Okt 2004 . . 212.202.73.77 (/* UTF-8 - UCS-2 (UCS-4) */)
- 23:23, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 22:06, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 21:57, 16. Okt 2004 . . Pjacobi (/* Unicode Transformation Formats */)
- 21:21, 16. Okt 2004 . . 212.202.73.77 (/* UTF-16 - UCS-2 */)
- 20:29, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 20:10, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 20:01, 16. Okt 2004 . . 212.202.73.77 (/* UTF-8 */)
- 19:54, 16. Okt 2004 . . 212.202.73.77 (/* UTF-8 */)
- 19:48, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 19:10, 16. Okt 2004 . . 212.202.73.77 ()
- Was hat das auf einer Diskussionsseite zu suchen? --RokerHRO 07:56, 14. Dez 2005 (CET)
- Aus Lizenzgründen (GFDL) ist dies die alte Versionsgeschichte, aus einer Zeit, als dieser Artikel eine Vorlage war. --Pjacobi 19:10, 29. Mai 2006 (CEST)
Implementierung
Hinzugefügt, siehe Diskussion:Unicode Programmierung - Implementierung. Lehrig 21:12, 29. Mai 2006 (CEST)
- Das war jetzt nicht so nett, den Teil mit den ganzen bereits angesprochenen Fehlern reinzuklatschen. Ich habe mal so notdürftig überarbeitet, aber es gibt jetzt Doppelungen zum Hauptteil des Artikels.
- Und warum soll jetzt die Qt-Bibliothek einzeln herausgestellt werden? Als abschreckendes Beispiel wegen Nichtkonformität?
- Pjacobi 22:29, 29. Mai 2006 (CEST)
Mit dem jetzigen Artikel bin ich nicht so einverstanden, da wichtige Punkte einfach herausgestrichen wurden und andere für Programmierer weniger wichtige Details reingekommen sind. Ich dachte die Punkte wären in Unicode Diskussion besprochen worden.
- Austausch über Netzwerke
- Kompatibilität zu alten Programmen
- Verweise auf Implementierungen wie Qt (gerne auch mehr)
- Vergleich mit Escape Sequenzen, wie bei Druckern oder Terminals
- ...
Lehrig 07:58, 31. Mai 2006 (CEST)
- Es sollten auch einmal andere Stimmen, als die von Pjacobi hinzugezogen werden. Damit die Diskussion nicht in eine Schieflage kommt. Lehrig 08:04, 31. Mai 2006 (CEST)
- Wenn Du auf Implementierungen verweisen willst, musst Du auch etwas relevantes darüber aussagen können, z.B. ob es eine konformante oder eine nicht konformante Implementation ist.
- Der Vergleich zu Escape-Sequenzen ist weniger passend als der Wikilink zu Multibyte Character Sets.
- Im Artikel steht bereits Anwendungen, die ausschließlich den ASCII-Zeichensatz verwenden, funktionieren unverändert auch mit UTF-8 -- durch das Anklatschen des neuen Abschnitts sind Doppelungen entstanden und Du musst auch mal weiter oben schauen.
- Pjacobi 09:12, 31. Mai 2006 (CEST)
- Im Prinzip ist der ganze neue Abschnitt unten redundant zum bisherigen Artikel. --Pjacobi 09:13, 31. Mai 2006 (CEST)
Vorschlag UTF-8
Zeichen Codes mit einem Wert von weniger als 128 werden in UTF-8 als ASCII-Code dargestellt. ASCII-Zeichen benötigen also ein Octet. Alle weiteren Zeichen werden entsprechend eines relativ aufwendigen Verfahrens als Folge von 2 oder 4 Octets codiert. Alle Zeichen in dieser Folge haben einen Wert von 128-255. Das höchstwertige Bit ist also gesetzt. Der UTF-8 Code kann in UTF-16 bzw. UTF-32 Code verlustfrei ungewandelt werden bzw. aus diesen Codierungen in UTF-8 Code umgerechnet werden. Dazu gibt es entsprechende Bibliotheken. UTF-8 hat gegenüber den anderen Codierungsverfahren den Vorteil, daß er aus einem einfachen Character String besteht (Octet-Folge). Da viele ältere Programme mit solchen einfachen Strings arbeiten, können diese vergleichsweise einfach auf UTF-8 erweitert werden, wohingegen eine Umstellung auf UTF-16 bzw. UTF-32 wesentlich aufwändiger ist. Zusätzlich hat UTF-8 den Vorteil, daß dermassen codierte Strings einfach über Netzwerke übertragen werden können, ohne sich um möglicherweise unterschiedliche Byte Reihenfolge kümmern zu müssen.
"Implementierung" so wie es jetzt ist kann gestrichen werden. Die bisherigen Ausführungen zu Unicode sind aber sehr allgemein gehalten. Den obigen Absatz würde ich gerne irendwo an prominenter Stelle unterbringen, da er meiner Meinung nach für Programmierer mehr bringt. PS: Das war der letzte Vorschlag, bevor ich von eifrigen Admins vergrault werde. Lehrig 19:48, 31. Mai 2006 (CEST)
Könnte der bisherige UTF-8 Abschnitt hierdurch ersetzt werden ? Wie würdet Ihr den Abschnitt umarbeiten ? Lehrig 09:15, 1. Jun 2006 (CEST)
- Von reinen Geschmacks- oder Stilfragen abgesehen, möchte ich Dich bitten
- 2 oder 4 Octets
- zu korrigieren in
- 2 bis 4 Octets.
- An zweiter Stelle kämen Zweifel an:
- relativ aufwendigen Verfahrens
- aber das würde mir keine schlaflosen Nächte bereiten.
- Pjacobi 10:39, 1. Jun 2006 (CEST)
- OK, ich setze das jetzt rein. PS: 2 oder 4 ist eigentlich präsiser, denn 3 octets sind nicht definiert. Lehrig 12:32, 1. Jun 2006 (CEST)
- Aber ich bin lernfähig. Ein göttliches Wissen habe ich natürlich nicht. Aber was Programmierung angeht, ist es schon relativ gross. Siehe: [1]. Solche Details der internen UTF-8 Codierung sind für den Anwendungsprogrammierer übrigen total irrelevant. Schon mal was von "Information hiding" gehört ? Du erweckst bei mir eher den Eindruck, ein wandelndes Lexikon selbst zu sein, das kann ich nicht. PS:Wir sollten achtungsvoll miteinander umgehen, nicht oberlehrerhaft. Lehrig 18:58, 1. Jun 2006 (CEST)