Unicode Transformation Format

UTF (Abk. für Unicode Transformation Format) beschreibt Methoden ein Unicode Zeichen auf Bytes abzubilden.

Unicode Transformation Formats

Für die Repräsentation der Unicode Zeichen, zum Zweck der elektronischen Datenverarbeitung, gibt es verschiedene transformations Formate. In jedem der Formate lassen sich alle in Unicode enthaltenen Zeichen darstellen und Zeichenketten lassen sich beliebig zwischen den Formaten umwandeln. Einige Formate:

UTF-32 - UCS-4

Jedes Zeichen wird durch einen 32 Bit langen Code repräsentiert. Das hat unter anderem den Vorteil, dass man schon an der Länge einer Zeichenkette erkennen kann, wieviele Zeichen enthalten sind. Ein Nachteil ist, dass mehr Speicherplatz verbraucht wird als bei UTF-16.

UTF-16 - UCS-2

Dies ist das älteste Format. Die Zeichen sind entweder 16 oder 32 Bit lang. Die Zeichen der lebenden Sprachen lassen sich so in 2 Byte darstellen.

UTF-8

UTF-8 ist auf Unix-Systemen die populärste Kodierung für Unicode. Der große Vorteil gegenüber fast allen anderen Formaten ist, dass alle ASCII-Zeichen unverändert gültige Zeichen in UTF-8 sind. So funktionieren viele Programme, die den ASCII-Zeichensatz verwenden, unverändert auch mit UTF-8.

UTF-7

UTF-7 stellt Unicode-Zeichen aus einer Reihe von ASCII-Zeichen mit jeweils nur 7 Bit dar.