Extended UNIX Coding

Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensatz kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme, findet diese Kodierung heute immer weniger Verwendung da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.

Gemeinsamkeiten

Alle EUC Kodierungen haben einige Gemeinsamkeiten:

Sie unterstützen bis zu 4 verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.
Code Set 0 wird immer durch 1 Byte direkt kodiert.
Es gibt 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).
Es wird der ASCII Bereich von 0xa0 - 0xff für Multi-Byte-Zeichen verwendet.

Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:

Code Set	Variante 1	Variante 2	Variante 3
Code Set 0	1 Byte: 0x21-0x7e
Code Set 1	1 Byte: 0xa0-0xff	2 Bytes: 0xa0-0xff, 0xa0-0xff	3 Bytes: 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
Code Set 2	2 Bytes: 0x8e, 0xa0-0xff	3 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff	4 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
Code Set 3	2 Bytes: 0x8f, 0xa0-0xff	3 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff	4 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff

EUC-JP

Die in Japan verwendete Variante.

EUC-KR

EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).

EUC-CN

EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.

EUC-TW

Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.

Vorlage:Stub