Chinesische Zeichenkodierung

Zuordnung der chinesischen Schriftzeichen zu Bytefolgen
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 22. September 2004 um 00:16 Uhr durch Pjacobi (Diskussion | Beiträge) (en:Chinese character encoding). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Chinesischen Zeichenkodierungen ordnen den Chinesische Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle Chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.

Big5

Die Zeichenkodierung Big5 wird für Traditional Chinese verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

GB2312

Die Zeichenkodierung GB2312 wird für Simplified Chinese verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

GB18030

Die Zeichenkodierung GB18030 ist eine Erweiterung von GB2312 wird für Simplified Chinese verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.

Unicode

Unicode unterscheidet sich von den anderen Chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen Simplified Chinese und Traditional Chinese gemacht wird, sondern durch die Han-Vereinheitlichung alle chinesischen und japanischen Schriftzeichen soweit wie möglich identifiziert werden. Die Darstellung in der richtigen Schriftart muss daher durch andere Mechanismem gewährleistet werden, entweder durch explizite Angabe der Sprache im Markup oder einer direkten Angabe des Fonts.

Unicode Translation Forms

Unicode ordnet den Zeichen zuerst abstrakte Nummern zu, die Umsetzung in Bytefogen ist in den Unicode Translation Forms definiert

UTF-8

In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und Chinesische Zeichen in drei oder vier Bytes.

UTF-16

In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und Chinesische Zeichen in zwei oder vier Bytes.

UTF-32

In UTF-32 werden ASCII-Zeichen und Chinesische Zeichen in vier Bytes kodiert.

SIP

Für eine große Anzahl von wenig benutzten Zeichen werden die Codes in der Supplementary Ideographic Plane allowziert, d.h. im Bereich U+20000-U+2FFFF.

Sonstige Unicode Bereiche

Unicode hat auch Bereiche für Bopomofo, Radikale und Sonderzeichen die für die Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für Pinyin gebraucht werden, sind über den Berecih für kombinierende diakritische Zeichen darstellbar.