Universal Coded Character Set

Der Universal Character Set ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

UCS-2: Kodierung in 2 Byte; läßt sich der Kode nicht mit 16 Bit darstellen, so werden zwei 16-Bit-Wörter benutzt. Details siehe UTF-16.
UCS-4: Kodierung in 4 Byte

Die Gruppe arbeitet sehr eng mit dem Unicode Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. So ist UCS-2 ein Synonym für UTF-16 und UCS-4 für UTF-32. Aufgrunddessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 2²⁰+2¹⁶) Zeichen (von U+00000 bis U+10FFFF) beschränkt.

In der aktuellen Version von ISO/IEC 10646 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben, wie in Unicode 4.0.

Siehe auch: UTF, Unicode

Universal Coded Character Set

Weblinks