Zum Inhalt springen

Unicode Transformation Format

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 16. Oktober 2004 um 19:50 Uhr durch 212.202.73.77 (Diskussion). Sie kann sich erheblich von der aktuellen Version unterscheiden.
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

UTF (Abk. für Unicode Transformation Format) beschreibt Methoden ein Unicode Zeichen auf Bytes abzubilden.

Unicode Transformation Formats

Für die Repräsentation der Unicode Zeichen, zum Zweck der elektronischen Datenverarbeitung, gibt es verschiedene transformations Formate. In jedem der Formate lassen sich alle in Unicode enthaltenen Zeichen darstellen und Zeichenketten lassen sich beliebig zwischen den Formaten umwandeln. Einige Formate:

UTF-32 - UCS-4

Jedes Zeichen wird durch einen 32 Bit langen Code repräsentiert. Das hat unter anderem den Vorteil, dass man schon an der Länge einer Zeichenkette erkennen kann, wieviele Zeichen enthalten sind. Ein Nachteil ist, dass mehr Speicherplatz verbraucht wird als bei UTF-16.

UTF-16 - UCS-2

Dies ist das älteste Format. Die Zeichen sind entweder 16 oder 32 Bit lang. Die Zeichen der lebenden Sprachen lassen sich so in 2 Byte darstellen.

UTF-8 ist auf Unix-Systemen die populärste Kodierung für Unicode. Der große Vorteil gegenüber fast allen anderen Formaten ist, dass alle ASCII-Zeichen unverändert gültige Zeichen in UTF-8 sind. So funktionieren viele Programme, die den ASCII-Zeichensatz verwenden, unverändert auch mit UTF-8.

UTF-7 stellt Unicode-Zeichen aus einer Reihe von ASCII-Zeichen mit jeweils nur 7 Bit dar.