Chinesische Zeichenkodierung
Chinesischen Zeichenkodierungen ordnen den Chinesische Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle Chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.
Big5
Die Zeichenkodierung Big5 wird für Traditional Chinese verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.
GB2312
Die Zeichenkodierung GB2312 wird für Simplified Chinese verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.
GB18030
Die Zeichenkodierung GB18030 ist eine Erweiterung von GB2312 wird für Simplified Chinese verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.
Unicode
Unicode unterscheidet sich von den anderen Chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen Simplified Chinese und Traditional Chinese gemacht wird, sondern durch die Han-Vereinheitlichung alle chinesischen und japanischen Schriftzeichen soweit wie möglich identifiziert werden. Die Darstellung in der richtigen Schriftart muss daher durch andere Mechanismem gewährleistet werden, entweder durch explizite Angabe der Sprache im Markup oder einer direkten Angabe des Fonts.
Unicode Translation Forms
Unicode ordnet den Zeichen zuerst abstrakte Nummern zu, die Umsetzung in Bytefogen ist in den Unicode Translation Forms definiert
UTF-8
In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und Chinesische Zeichen in drei oder vier Bytes.
UTF-16
In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und Chinesische Zeichen in zwei oder vier Bytes.
UTF-32
In UTF-32 werden ASCII-Zeichen und Chinesische Zeichen in vier Bytes kodiert.
SIP
Für eine große Anzahl von wenig benutzten Zeichen werden die Codes in der Supplementary Ideographic Plane allowziert, d.h. im Bereich U+20000-U+2FFFF.
Sonstige Unicode Bereiche
Unicode hat auch Bereiche für Bopomofo, Radikale und Sonderzeichen die für die Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für Pinyin gebraucht werden, sind über den Berecih für kombinierende diakritische Zeichen darstellbar.