UTF-8
Erscheinungsbild
UTF-8 (8-bit Unicode Transformation Format) ist ein Codierungsverfahren um mit einem Code bestehend aus Byte-Ketten variabler Länge Unicode-Zeichen darzustellen. Hat ein Byte in UTF-8 einen Wert zwischen 0 und 128, so entspricht seine Bedeutung dem ASCII-Code mit dem selben Wert.
U0000 - U007F: | 0xxxxxxx | In diesem Bereich entspricht UTF-8 genau dem ASCII-Code: Das erste Bit ist 0, die darauf folgende 7-Bitkombination ist das ASCII-Zeichen. |
U0080 - U07FF: | 110xxxxx 10xxxxxx | Das erste Byte beginnt mit binär 11, die folgenden Bytes beginnen mit binär 10; die x stehen für die fortlaufende Bitkombination des Unicodezeichens. |
U0800 - UFFFF: | 1110xxxx 10xxxxxx 10xxxxxx | |