Universal Coded Character Set

Mit Unicode identischer Zeichensatz der ISO
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 29. Oktober 2004 um 01:11 Uhr durch 212.202.73.77 (Diskussion). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Der Universal Character Set ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

  • UCS-2: Kodierung in 2 Byte; läßt sich der Kode nicht mit 16 Bit darstellen, so werden zwei 16-Bit-Wörter benutzt. Details siehe UTF-16.
  • UCS-4: Kodierung in 4 Byte

Die Gruppe arbeitet sehr eng mit dem Unicode Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. So ist UCS-2 ein Synonym für UTF-16 und UCS-4 für UTF-32. Aufgrunddessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 220+216) Zeichen (von U+00000 bis U+10FFFF) beschränkt.

In der aktuellen Version von ISO/IEC 10646 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben, wie in Unicode 4.0.

Siehe auch: UTF, Unicode