UTF-8

Kodierung von Unicode mit variabler Byteanzahl
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 2. März 2006 um 14:33 Uhr durch 84.132.140.186 (Diskussion) (Weblinks). Sie kann sich erheblich von der aktuellen Version unterscheiden.

UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die verbreitetste Kodierung für Unicode-Zeichen. Damit werden die meisten Alphabete und Schriftzeichensysteme umfasst, die weltweit derzeit genutzt werden, also nicht nur die lateinischen Buchstaben und arabischen Zahlen, sondern zum Beispiel auch die arabische, griechische, kyrillische, koreanische oder thailändische Schrift. Dabei wird jedem Unicode-Zeichen eine speziell kodierte Bytekette von variabler Länge zugeordnet. UTF-8 unterstützt bis zu 4 Byte, auf die sich wie bei allen UTF-Formaten alle 1.114.112 Unicode-Zeichen abbilden lassen.

UTF-8 ist gegenwärtig als RFC 3629 standardisiert (UTF-8, a transformation format of ISO 10646). Dieser Standard löst das ältere RFC 2279 ab.

Unicode-Zeichen mit den Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben. Insofern sind alle Daten, die ausschließlich echte ASCII-Zeichen verwenden, in beiden Darstellungen identisch.

Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu Byteketten der Länge zwei bis vier kodiert.

Unicode-Bereich UTF-8-Kodierung Bemerkungen Möglichkeiten
0000 0000–0000 007F 0xxxxxxx In diesem Bereich (128 Zeichen) entspricht UTF-8 genau dem ASCII-Code: Das erste Bit ist 0, die darauf folgende 7-Bitkombination ist das ASCII-Zeichen. 27 128
0000 0080–0000 07FF 110xxxxx 10xxxxxx Das erste Byte beginnt mit binär 11, die folgenden Bytes beginnen mit binär 10; die x stehen für die fortlaufende Bitkombination des Unicode-Zeichens. Die Anzahl der Einsen bis zur ersten 0 im ersten Byte ist die Anzahl der Bytes für das Zeichen. (In Klammern jeweils die theoretisch maximal möglichen.)
()
1.920 (2.048)
0000 0800–0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 216 − 211
[216]
63.488
[65.536]
0001 0000–0010 FFFF [0001 0000–001F FFFF] 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 220
[221]
1.048.576
[2.097.152]

Der Algorithmus lässt theoretisch mehrere Milliarden Zeichen zu (27 + 2(1·6+5) + 2(2·6+4) + 2(3·6+3) + 2(4·6+2) + 2(5·6+1) + 2(6·6+0) = 70.936.234.112) und ist somit von allen UTF-Kodierungen die mächtigste. Die aktuelle RFC beschränkt diese jedoch auf die durch UTF-16 erreichbaren Zeichen, deren Coderaum in Unicode definiert ist, also von 0 bis 0010 FFFF (1.114.112 Möglichkeiten). Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes nennt man Folgebytes. Startbytes beginnen also mit der Bitfolge 11 oder einem 0-Bit, während Folgebytes immer mit der Bitfolge 10 beginnen.

Betrachtet man die Bitfolgen etwas genauer, erkennt man die große Sinnfälligkeit von UTF-8:

  • Ist das höchste Bit des ersten Byte 0, handelt es sich um ein gewöhnliches ASCII-Zeichen, da ASCII eine 7-Bit-Kodierung ist und die ersten 128 Zeichen des Unicode die ASCII-Zeichen sind. Damit sind alle ASCII-Dokumente automatisch aufwärtskompatibel zu UTF-8.
  • Ist das höchste Bit des ersten Byte 1, handelt es sich um ein Mehrbytezeichen, also ein Unicode-Zeichen mit einer Zeichennummer größer als 127.
  • Sind die höchsten beiden Bits des ersten Byte 11, handelt es sich um das Start-Byte eines Mehrbytezeichens, sind sie 10, um ein Folge-Byte.
  • Die lexikalische Ordnung nach Byte-Werten entspricht der lexikalischen Ordnung nach Buchstaben-Nummern, da höhere Zeichennummern mit entsprechend mehr 1-Bits am Anfang kodiert werden.
  • Bei den Start-Bytes von Mehrbyte-Zeichen gibt die Anzahl der 1-Bits vor dem ersten 0-Bit die gesamte Bytezahl des als Mehrbyte-Zeichen kodierten Unicode-Zeichens an. Anders interpretiert, die Anzahl der 1-Bits vor dem ersten 0-Bit nach dem ersten Bit entspricht der Anzahl an Folgebytes, z.B. 1110xxxx 10xxxxxx 10xxxxxx 3 Bits vor dem ersten 0-Bit = 3 Bytes insgesamt, 2 Bits vor dem ersten 0-Bit nach dem ersten 1-Bit = 2 Folgebytes.
  • Start-Bytes (0xxx xxxx oder 11xx xxxx) und Folge-Bytes (10xx xxxx) lassen sich eindeutig voneinander unterscheiden. Somit kann ein Byte-Strom auch in der Mitte gelesen werden, ohne dass es Probleme mit der Dekodierung gibt, was insbesondere bei der Wiederherstellung defekter Daten wichtig ist. Bytes, die mit 10 beginnen, werden einfach übersprungen, bis ein Byte gefunden wird, das mit 0 oder 11 beginnt. Könnten Start-Bytes und Folge-Bytes nicht eindeutig voneinander unterschieden werden, wäre das Lesen eines UTF-8-Datenstroms, dessen Beginn unbekannt ist, unter Umständen nicht möglich.

Zu beachten:

  • Das gleiche Zeichen kann theoretisch auf verschiedene Weise kodiert werden. Jedoch ist nur die jeweils kürzestmögliche Kodierung erlaubt.
  • Bei mehreren Bytes für ein Zeichen werden die Bits rechtsbündig angeordnet – das rechte Bit des Unicode-Zeichens steht also immer im rechten Bit des letzten UTF-8-Bytes.
  • Ursprünglich gab es auch Kodierungen mit mehr als 4 Oktetts (bis zu 6), diese sind jedoch ausgeschlossen worden, da es in Unicode keine korrespondierenden Zeichen gibt und ISO 10646 in seinem möglichen Zeichenumfang an Unicode angeglichen wurde.
  • Für alle auf dem Lateinischen Alphabet basierenden Schriften ist UTF-8 die platzsparendste Methode zur Abbildung von Unicode-Zeichen.
  • Die code points U+D800-U+DBFF und U+DC00-U+DFFF sind als Low und High surrogates in der Unicode BMP reserviert (für UTF-16) und sollten entsprechend auch nicht codiert werden. z.B. wird U+10400 in UTF-16 als D801,DC00 dargestellt, sollte in UTF-8 aber als F0,90,90,80 und nicht als ED,A0,81,ED,B0,80 ausgedrückt werden. (Siehe dazu auch CESU-8.) Java unterstützt dies seit der Version 1.5, siehe: http://java.sun.com/developer/technicalArticles/Intl/Supplementary/
  • UTF-8, UTF-16 und UTF-32 kodieren alle den vollen Wertebereich von Unicode.

Beispiele

Beispiel Unicode Unicode binär UTF-8 binär UTF-8 hexadezimal
Der Buchstabe y U+0079 00000000 01111001 01111001 0x79
Der Buchstabe ä U+00E4 00000000 11100100 11000011 10100100 0xC3 0xA4
Das registered-trademark-Zeichen ® U+00AE 00000000 10101110 11000010 10101110 0xC2 0xAE
Das Euro-Zeichen U+20AC 00100000 10101100 11100010 10000010 10101100 0xE2 0x82 0xAC
Der Violinschlüssel 𝄞 U+1D11E 00000001 11010001 00011110 11110000 10011101 10000100 10011110 0xF0 0x9D 0x84 0x9E

Das letzte Beispiel liegt außerhalb des ursprünglich in Unicode (unter Version 2.0) enthaltenen Codebereiches (16 Bit), der in der aktuellen Unicode-Version 4.1.0 als BMP-Bereich (Plane 0) enthalten ist, im SMP-Bereich (Plane 1). Da derzeit viele Schriftarten diese neuen Unicode-Bereiche noch nicht enthalten, können die dort enthaltenen Zeichen auf vielen Plattformen nicht korrekt dargestellt werden. Stattdessen wird ein Ersatzzeichen dargestellt, welches als Platzhalter dient.

UTF-8 im Internet

Im Internet wird immer häufiger die UTF-8-Kodierung verwendet. So unterstützt auch Wikipedia alle denkbaren Sprachen.

In XML-Dokumenten, darunter XHTML-Dokumente mit dem MIME-Typ application/xhtml+xml, kann die Kodierung in der XML-Deklaration angegeben werden:

<?xml version="1.0" encoding="UTF-8" ?>

Da XML-Parser standardmäßig UTF-8 als Kodierung annehmen, kann diese Angabe entfallen.

In HTML-Dokumenten sowie in HTML-kompatiblen XHTML-Dokumenten mit dem MIME-Typ text/html kann die Kodierung in einem meta-Element angegeben werden:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

HTTP definiert ISO 8859-1 als Standardkodierung für alle Dokumente mit dem MIME-Typ text/*, deshalb ist bei der Verwendung von UTF-8 eine ausdrückliche Angabe erforderlich, wahlweise über die HTTP-Kopfzeile Content-Type oder über das beschriebene Meta-Element.

Auch in E-Mails ist bei einigen Programmen schon die UTF-8-Kodierung voreingestellt. Sie stellt sicher, dass auch Sonderzeichen unterschiedlicher Länder richtig übertragen und dargestellt werden.

Siehe auch: CESU-8, UTF-7, UTF-16, UTF-32, Unicode

Wiktionary: UTF-8 – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen