Zum Inhalt springen

UTF-8

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 24. Juni 2003 um 08:44 Uhr durch Warp (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist ein Kodierung für Unicode-Zeichen; dabei besteht der Code aus Byte-Ketten von variabler Länge.

UTF-8 ist gegenwärtig als RFC 2279 standardisiert (UTF-8, a transformation format of ISO 10646).

Hat ein Byte in UTF-8 einen Wert zwischen 0 und 127, so entspricht es exakt dem ASCII-Zeichen mit demselben Wert. Insofern sind alle Dateien, die ausschließlich ASCII-Zeichen verwenden, in beiden Darstellungen identisch. In allen anderen Fällen sind mehr Bytes erforderlich.

U0000 - U007F:0xxxxxxx In diesem Bereich entspricht UTF-8 genau dem ASCII-Code: Das erste Bit ist 0, die darauf folgende 7-Bitkombination ist das ASCII-Zeichen.
U0080 - U07FF:110xxxxx 10xxxxxxDas erste Byte beginnt mit binär 11, die folgenden Bytes beginnen mit binär 10; die x stehen für die fortlaufende Bitkombination des Unicodezeichens. Die Anzahl der Einsen bis zur ersten 0 im ersten Byte ist die Anzahl der Bytes für das Zeichen.
U0800 - UFFFF:1110xxxx 10xxxxxx 10xxxxxx
U10000 - UEFFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
  • http://www.cl.cam.ac.uk/~mgk25/unicode.html -- Markus Kuhn, The UTF-8 and Unicode FAQ for Unix/Linux; in diesem Dokument findet man Hinweise, wie UTF-8 ASCII und ISO 8859-1 in der GNU/Linux- und Unix-Welt ersetzen kann.