Extended UNIX Coding
Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensatz kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme findet diese Kodierung heute immer weniger Verwendung, da sie oft von Shift-JIS und/oder Unicode abgelöst wurde.
Gemeinsamkeiten
Alle EUC Kodierungen haben einige Gemeinsamkeiten:
- Sie unterstützen bis zu 4 verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.
- Code Set 0 wird immer durch 1 Byte direkt kodiert.
- Es gibt 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).
- Es wird der ASCII Bereich von 0xa0 - 0xff für Multi-Byte-Zeichen verwendet.
Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:
Code Set | Variante 1 | Variante 2 | Variante 3 |
---|---|---|---|
Code Set 0 | 1 Byte: 0x21-0x7e | ||
Code Set 1 | 1 Byte: 0xa0-0xff | 2 Bytes: 0xa0-0xff, 0xa0-0xff | 3 Bytes: 0xa0-0xff, 0xa0-0xff, 0xa0-0xff |
Code Set 2 | 2 Bytes: 0x8e, 0xa0-0xff | 3 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff | 4 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff |
Code Set 3 | 2 Bytes: 0x8f, 0xa0-0xff | 3 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff | 4 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff |
EUC-JP
Die in Japan verwendete Variante.
EUC-KR
EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).
EUC-CN
EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.
EUC-TW
Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.