コンテンツにスキップ

Extended Unix Code

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。192.51.44.45 (会話) による 2006年6月15日 (木) 06:05個人設定で未設定ならUTC)時点の版 (JIS X 212が必須でない。の前後に多少補足を追加)であり、現在の版とは大きく異なる場合があります。

EUC

  1. 拡張UNIXコード(Extended UNIX Code)の略。本項で詳述。
  2. エンド・ユーザ・コンピューティング(End-User Computing)の略。

EUC(Extended UNIX Code)は、UNIX上でよく使われる文字コード符号化方式

などがある。

概要

バイト単位の可変長コードであるEUC Packed Formatと、2バイト固定長のEUC Fixed Width Formatがある。前者は情報交換用、後者は内部処理用で、一般にEUCという場合前者を指す。ここでも前者について解説する。

ISO/IEC 2022を元に、以下のようなサブセット化を行った体系である。

  • G0にASCII(主コードセット)を、G1~G3に各言語の文字集合(補助コードセット1~3)を暗黙に指示する。指示のエスケープシーケンスは用いない。
  • GLにG0を、GRにG1を暗黙に呼び出す。G2/G3はシングルシフト2/3によりGRに呼び出す。ロッキングシフトは用いない。

補助コードセットが0x80~0xFFの範囲で表されるため、主コードセットと衝突することがない。 すなわちShift JISにおける円記号問題のようなことが起きないというメリットがある。

日本語EUC

JIS X 0208ベース

一般に日本語EUCという場合こちらを指す。EUC-JPともいう。 UNIXの標準的な日本語コードとして広く使われている。 UNIX SYSTEM V リリース 4 日本語環境共通規約において、JIS X 201 カタカナとJIS X 212 補助漢字は実装が必須ではないとされていた。 このため、特にJIS X 0212は実装されていないことも多い。 通信などで用いる場合はこの点に注意が必要である。

JIS X 0213ベース

JIS X 0213:2004ベースのものをEUC-JIS-2004という (2000年版はEUC-JISX0213)。JIS X 0213の附属書3に記載がある。 ほとんど使われていない。

韓国語EUC

韓国で広く使われている。EUC-KRともいう。 単にKS C 5601といった場合でも、文字集合としてのKS C 5601でなく、EUC-KRのことを指している場合が多い。

  • G0 - ASCII
  • G1 - KS X 1001 (KS C 5601)
  • G2 - なし
  • G3 - なし

EUC-KRを拡張したUHC (Unified Hangul Code) という体系も存在する。

簡体字中国語EUC

中国で広く使われている。EUC-CNともいう。 単にGB 2312といった場合でも、文字集合としてのGB 2312でなく、EUC-CNのことを指している場合が多い。

  • G0 - ASCII
  • G1 - GB 2312
  • G2 - なし
  • G3 - なし

EUC-CNを拡張したGBKという体系も存在する。

繁体字中国語EUC

EUC-TWともいう。台湾の規格であるが、あまり使われておらず、一般にはBig5が使われる。

  • G0 - ASCII
  • G1 - CNS 11643 第一字面
  • G2 - CNS 11643 第二~第十六字面
  • G3 - なし

G2の文字は以下の4バイトで構成される。

  • シングルシフト2 (0x8E)
  • 字面を選択するコード(0xA2~0xB0)
  • 文字の第1バイト(0xA1~0xFE)
  • 文字の第2バイト(0xA1~0xFE)

関連項目