Universal Coded Character Set
Der Universal Character Set ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.
Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.
Ursprünglich wurden diese beiden Formate definiert:
- UCS-2: Kodierung in 2 Byte; läßt sich der Kode nicht mit 16 Bit darstellen, so werden zwei 16-Bit-Wörter benutzt. Details siehe UTF-16.
- UCS-4: Kodierung in 4 Byte
Die Gruppe arbeitet sehr eng mit dem Unicode Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. So ist UCS-2 ein Synonym für UTF-16 und UCS-4 für UTF-32. Aufgrunddessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 220+216) Zeichen (von U+00000 bis U+10FFFF) beschränkt.
In der aktuellen Version von ISO/IEC 10646 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben, wie in Unicode 4.0.