Extended UNIX Coding

8-Bit-Zeichencodierung
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 6. September 2005 um 01:35 Uhr durch Michael Drüing (Diskussion | Beiträge) (Big5 macht als Beispiel mehr Sinn da GB2312 der EUC-CN entspricht). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensatz kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme, findet diese Kodierung heute immer weniger Verwendung da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.

Gemeinsamkeiten

Alle EUC Kodierungen haben einige Gemeinsamkeiten:

  • Sie unterstützen bis zu 4 verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.
  • Code Set 0 wird immer durch 1 Byte direkt kodiert.
  • Es gibt 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).
  • Es wird der ASCII Bereich von 0xa0 - 0xff für Multi-Byte-Zeichen verwendet.

Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:

Code Set Variante 1 Variante 2 Variante 3
Code Set 0 1 Byte: 0x21-0x7e
Code Set 1 1 Byte: 0xa0-0xff 2 Bytes: 0xa0-0xff, 0xa0-0xff 3 Bytes: 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
Code Set 2 2 Bytes: 0x8e, 0xa0-0xff 3 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff 4 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
Code Set 3 2 Bytes: 0x8f, 0xa0-0xff 3 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff 4 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff

EUC-JP

Die in Japan verwendete Variante.

EUC-KR

EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).

EUC-CN

EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.

EUC-TW

Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.

Vorlage:Stub