Unicode

Unicode (ユニコード) とは、世界中の多くのコンピュータ上の文字列を一貫した方法で符号化し、表現し、扱うためのコンピュータ業界の標準である。 1980年代に提唱された。

ゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年にISOでもISO/IEC 10646の一部として標準化されたが、Unicodeと完全に同一の規格ではない^[1]。

概要

Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、NT系のMicrosoft Windows (Windows)、Mac OS X、LinuxやJavaなどで利用されている。

元々16ビットの文字集合で全ての文字の網羅を目指して開発されたが、符号位置が圧倒的に足りなくなり、Unicode 2.0以降では、21ビットの文字集合として規定されることとなった。当初の16ビットの領域は基本多言語面 (BMP) と呼ばれ、ISO/IEC 10646においてUCS-2で定義される範囲と同一である。ISO/IEC 10646におけるUCS-4は31ビットの文字集合であり、21ビットのUnicodeとは別物である。

Unicodeの文字を表現する場合、"U+"にその文字の符号位置を表す16進数の値を続ける。この値をコードポイントと言う。 BMP はU+0000 - U+FFFF の 4 桁に対応し、21 ビットの空間は U+0000 - U+10FFFF であり、必要に応じて 5、6 桁で表す。

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初より JIS X 0201、JIS X 0208 と JIS X 0212 を、Unicode 3.1 では JIS X 0213 の内容を収録している。

また収録においては同じ意味・目的の文字は、できる限り同じ符号位置に割り当てる方針を取っている。そのため、CJK統合漢字（中国語、日本語、朝鮮語で使用される漢字が統合された領域）は大きな議論となった。各国のコードはISO/IEC 10646とは別の組織で標準化されているため、厳密には違うものであるが、符号位置を共有する文字の間で非互換が生じないように慎重に標準化が進められている。

既存の符号化方式との相互運用性もある程度考慮されており、同じグリフ（字形）の文字であっても、歴史上・実用上の識別が求められる場合には互換領域がとられ、Unicodeを介在して文字コード変換を行った際に、復元可能となるように考慮されている。しかしながら、他の符号化文字集合（文字符号化方式）との変換の整合性においては、いくつかの問題がある。たとえば、CP51932とeucJP-MSのように既存文字コード同士でUnicodeとの対応が一部違うために文字化けが発生することがある。

文字集合

Unicodeに収録されている文字については、#一覧の「コード順分類一覧」を参照。

エンコーディング（符号化方式）

ISO/IECの規格が定めている符号化方式については、ISO/IEC 10646#文字集合のサブセットおよびISO/IEC 10646#文字符号化方式を参照

UTF-7: UTF-16 （後述）で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化スキームを行う。RFC 2152で定められており、Unicode標準及びUnicodeの関連仕様には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましいとされる。
UTF-8（UTF-2、UTF-FSS）: 可変長（1〜4バイト）の8ビット符号単位で表現する文字符号化形式及び文字符号化スキーム。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化スキームやUTF-32符号化スキームとの変換・逆変換に際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。; UTF-8符号化スキームについて、日本国内でのみバイト順マーク (BOM) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを符号単位とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF (U+FEFFのUTF-8での表現) の3バイトが付与されることがある。Windowsのメモ帳で作成した「Unicodeテキスト」にはBOMが付与される。Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むと（日本語版の場合）Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化スキーム等における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。
UTF-16: BMP文字を16ビット符号単位一つで、その他の文字をサロゲートペア（代用対）という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化スキーム。Windows XPなどの近年のOSの内部では、UTF-16符号化形式が使われている。UCS-2ともBMPの範囲で互換性がある。; UTF-16符号化スキームでは、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF,0xFEならリトルエンディアン、0xFE,0xFFならビッグエンディアンとして後に続く文書を処理する。; RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化スキームをUTF-16BE、リトルエンディアンの符号化スキームをUTF-16LEとして区別することもある。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化スキームのことを指す。TCP/IPネットワークではプロトコルヘッダやMIME等の手段で符号化スキームが指定されずBOMも付与されない場合、ビッグエンディアンに決められている（→ エンディアン）。
UTF-32 （Unicode 3.1より）: Unicodeのすべての符号位置を単一長の符号単位として32ビットで表現する文字符号化形式及び文字符号化スキーム。実際に使われるのは21ビット（Unicodeの符号空間がU+10FFFFまでであるため）。この21ビットの範囲内ではUCS-4と互換性がある。UTF-32符号化スキームでもUTF-16符号化スキームと同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。単純な符号化スキームであるが、テキストファイルなどではファイルのサイズが大きくなるため（全てBMPの文字からなる文章の場合はUTF-16符号スキームの2倍のサイズとなる）使用されることは稀である。そのためかMicrosoft Officeでの「エンコードされたテキストファイル」の読み書きはこの符号化スキームには未だ対応していない。フリーウェアおよびシェアウェアの多数の符号化スキームに対応しているテキストエディタでもこの符号化スキームには対応していないものは多い。ただしすべてのUnicodeを扱う処理を行う場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式（あるいはUCS-4）で扱うことも多い。; UTF-16符号化スキームなどと同様にUTF-32符号化スキームにもBOMがあり、データストリームの先頭に付される。先頭の4バイトが0xFF,0xFE,0x00,0x00ならリトルエンディアン、0x00,0x00,0xFE,0xFFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。

以下はエイプリルフールに公開されたジョークRFCである。UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならない。

UTF-9: 可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット（オクテット）ではなく9ビット（ノネット）であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ（ACOS-6など）であれば計算コストも低い。
UTF-18: Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面を余った2ビットで識別するため、代用符号位置は使わない。

以下はドラフト段階で破棄された規格案。

UTF-5: 国際化ドメイン名での利用を想定し、0〜9、A〜Vの32文字で表現する文字符号化スキーム。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。

UTF-9: 可変長コード（1〜5バイト）の8ビット符号単位で表現する文字符号化形式または文字符号化スキーム。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。

拡張領域

代用対

Unicodeでは代用対をサロゲートペア（英: Surrogate Pair）の日本語表記としている。

Unicodeは 2¹⁶ = 65,536 種類の文字を収録でき、当初の構想では世界中のすべての文字をこの16ビット固定長のコード体系に登録可能と思われていた。だが、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このため、Unicodeの16ビット枠内に全世界の文字を収録するという計画は早々に破綻し、1996年、Unicode 2.0ではサロゲートペア（代用対）の拡張が盛り込まれた。

サロゲートペア（代用対）は16ビットUnicodeの未定義領域1024文字分を2つ使い（前半0xD800〜0xDBFF, 後半0xDC00〜0xDFFF）、それをペアにすることで1文字を表し (1024 × 1024 = 1,048,576文字)、その1,048,576文字を256 × 256の区点 (row, cell) からなる「面」 (plane) に順番に割り振っていく。これにより 1,048,576 / (256 × 256 = 65,536) = 16 で、全部で第16面までの文字を収録することができる。つまり第01面から第16面までであり、これに加えて第00面 (BMP) も使用可能なので、合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字が使用可能になる。エスケープシーケンスこそ使用しないものの、16ビット文字コード体系との互換性を維持するために、UTF-16（16ビットを符号単位とする文字符号化形式）を採用した結果、Unicodeは16ビット符号単位一つと16ビット符号単位二つ（合計32ビット）が混在する複雑な可変長文字コードとなってしまった。

サロゲートペア（代用対）の方式は16ビット固定長を志向したUTF-16との互換性維持のために設けられた拡張であり、UTF-8やUTF-32では利用できない。

拡張領域に含まれる文字

現在第1面はSupplementary Multilingual Plane（SMPと略される。追加多言語面。主に古代文字が収録されている。）、第2面はSupplementary Ideographic Plane（SIP, 追加漢字面。漢字専用領域。）、第14面はSupplementary Special-purpose Plane（SSP, 追加特殊用途面。制御コード専用領域。）、第15面および第16面は私用面（BMPのU+E000〜U+F8FFの領域の拡張）と決められている。また、第3面はTertiary Ideographic Plane（直訳すると第三の漢字面）で、2009年3月現在では1字も収録されていないが、古代漢字や甲骨文字が収録される予定である。

第4面〜第13面は未使用で将来どのような目的で使用するのかすら決まっていない。

日本では2000年にJIS X 0208を拡張する目的でJIS X 0213（いわゆるJIS第3第4水準）が制定されたが、この際、新たに採用された文字でUnicodeに無かったものの一部は、BMPに収録できず、第2面への収録となった（最終対応は2002年）。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには追加漢字面をサポートしたOS、フォント、アプリケーションが必要となる。Shift_JIS等、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要なことは言うまでもない。

歴史

1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフトDIS (Draft International Standard) では、漢字コードは32bitで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。

このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にユニコードと呼ばれるようになる世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット（16ビット）固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月　Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。

1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第１回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果1991年末になって「ISO 10646＝Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO)の第1版として完成した。

Unicodeの最初の印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。

1992年CJK統合漢字Unified Repertoire and Ordering (URO) 第二版が完成し、これを取り込んだ（ただしUROには若干の間違いが発見されており、それらの修正が行われている。）DIS 10646第2版が5月30日国際投票の結果可決された。

1993年5月1日「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後ユニコードとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。

各バージョンとその特徴

ユニコードのバージョンは、メジャーバージョン（the major version）、マイナーバージョン（the minor version）、アップデートバージョン（the update version）の三つの部分から構成され、ピリオドでつなげて表示される。但しマイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときにされる。ユニコードのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもユニコードについての正式なドキュメントであるとされており、新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。

年	バージョン	収録文字数	概要	日本語における主要な追加文字
1991年10月	Unicode 1.0.0	7,161	初期バージョン、16ビットの文字コード	JIS X 0201
1992年6月	Unicode 1.0.1	28,359	CJK統合漢字を導入	JIS X 0208、JIS X 0212
1993年6月	Unicode 1.1	34,233	ISO/IEC 10646-1:1993にあわせ変更
1996年7月	Unicode 2.0	38,950	ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う(Amd.5)、サロゲートペア（代用対）を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張(Amd.1)
1998年5月	Unicode 2.1	38,952	ユーロ記号と正誤表を追加
1999年9月	Unicode 3.0	49,259	ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字の拡張Aで漢字6582字を追加(Amd.17)	地名や人名などに用いられる漢字
2001年3月	Unicode 3.1	94,205	ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字の拡張Bで漢字42711字を追加し、JIS X 0213一部対応	地名や人名などに用いられる漢字
2002年3月	Unicode 3.2	95,221	ISO/IEC 10646-1:2000の追補Amd.1に対応。JIS X 0213正式対応
2003年4月	Unicode 4.0.0	96,447	ISO/IEC 10646:2003に対応
2005年3月	Unicode 4.1.0	97,720	ISO/IEC 10646:2003の追補Amd.1に対応
2006年7月	Unicode 5.0.0	99,089	ISO/IEC 10646:2003の追補Amd.2とシンド語（Amd.3に含まれる）に対応
2008年4月4日^[2]	Unicode 5.1.0	100,713	ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める^[3]	麻雀牌、割り算の記号、電話機の星印、Adobe-Japan1-6の漢字字形^[4]
2009年10月	Unicode 5.2.0	107,361	ISO/IEC 10646:2003の追補Amd.6までに対応	ARIB外字
2010年10月	Unicode 6.0.0	109,449	ISO/IEC 10646:2010	携帯電話の絵文字

構成要素のバージョン

ユニコードのバージョンには、上記のような「ユニコードの規格全体に付けられたバージョン」の他に「ユニコードを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、ユニコードを構成する各面ごとに付けられたバージョンやユニコードに収録されないこととされたスクリプトのリスト（NOR = Not The Roadmap）に付けられたバージョンなどが存在する。

日付	BMP [1]	SMP [2]	SIP [3]	TIP[4]	SSP [5]	NOR[6]
2001年10月10日	3.0[7]	3.0[8]	3.0[9]			1.0[10]
2001年10月12日		3.1[11]
2001年10月27日	3.1[12]
2001年11月27日					3.0[13]
2002年1月22日	3.2[14]				3.1[15]
2002年1月29日	3.3[16]
2002年2月5日	3.4[17]
2002年4月3日		3.2[18]
2002年4月4日	3.5[19]
2002年6月7日	3.6[20]	3.3[21]
2002年6月23日	3.7[22]
2002年10月2日	3.8[23]
2002年10月28日	3.9[24]
2002年11月11日			3.1[25]
2002年12月3日	3.10[26]	3.4[27] 3.5[28]
2002年12月11日	3.11[29]
2003年3月12日	3.12[30]	3.6[31]
2003年3月15日		3.7[32]
2003年4月16日	4.0[33]	4.0[34]	4.0[35]		4.0[36]	4.0[37]
2003年5月4日	4.1[38]
2003年5月16日			4.1[39]
2003年6月18日	4.2[40]	4.1[41]
2003年7月15日					4.1[42]
2003年8月19日	4.3[43]
2003年9月11日	4.4[44]	4.2[45]
2003年9月20日	4.5[46]
2003年10月22日	4.6[47]
2003年10月31日		4.3[48]
2003年12月23日	4.7[49]	4.4[50]
2004年5月27		4.5[51]
2004年6月24日	4.8[52]	4.6[53]
2004年7月3日		4.7[54]
2004年12月1日						4.1[55]
2005年1月27日			4.2[56]
2005年1月28日	4.9[57]	4.8[58]
2005年3月31日	4.10[59]	4.9[60]
2005年5月27日		4.10[61]				4.2[62]
2005年6月10日	4.11[63]	4.11[64]
2005年6月27日	4.12[65]	4.12[66]	4.3[67]		4.2[68]	4.3[69]
2005年8月1日	4.13[70]	4.13[71]
2005年9月6日	4.14[72]
2005年9月14日	4.15[73]
2005年9月17日		4.14[74]
2005年9月19日	4.16[75]
2005年12月8日		4.15[76]
2006年1月11日	4.17[77]	4.16[78]
2006年4月17日	4.18[79]	4.17[80]	4.4[81]
2006年4月28日						4.4[82]
2006年9月21日	5.0[83]	5.0[84]	5.0[85]		5.0[86]	5.0[87]
2006年9月29日	5.0.1[88]		5.0.1[89]
2007年3月14日		5.0.1[90]
2007年4月11日	5.0.2[91]	5.0.2[92]
2007年5月5日	5.0.3[93]	5.0.3[94]
2007年7月24日	5.0.4[95]	5.0.4[96]				5.0.1[97]
2007年8月22日	5.0.5[98]
2007年8月29日		5.0.5[99]
2008年1月15日		5.0.6[100]
2008年1月31日	5.0.6[101]
2008年2月14日	5.0.7[102]	5.0.7[103]
2008年4月4日	5.1.0[104]	5.1.0[105]	5.1.0[106]		5.1.0[107]	5.1.0[108]
2008年4月25日	5.1.1[109]	5.1.1[110]		5.1.0[111]		5.1.1[112]
2008年8月12日	5.1.2[113]	5.1.2[114]
2008年8月19日	5.1.3[115]
2008年10月17日	5.1.4[116]	5.1.3[117]		5.1.1[118]
2009年2月4日	5.1.5[119]	5.1.4[120]
2009年2月26日			5.1.1[121]
2009年4月22日			5.1.2[122]
2009年4月24日		5.1.5[123]
2009年10月1日	5.2.0[124]	5.2.0[125]	5.2.0[126]	5.2.0[127]	5.2.0[128]	5.2.0[129]
2009年11月18日	5.2.1[130]
2010年2月5日		5.2.1[131]
2010年2月10日		5.2.2[132]
2010年2月23日		5.2.3[133]
2010年4月23日	5.2.2[134]	5.2.4[135]
2010年5月12日		5.2.5[136]
2010年6月24日		5.2.6[137]
2010年7月27日		5.2.7[138]
2010年10月11日	6.0.0[139]	6.0.0[140]	6.0.0[141]	6.0.0[142]	6.0.0[143]	6.0.0[144]
2010年12月6日		6.0.1[145]
2011年1月9日		6.0.2[146]
2011年1月14日	6.0.1[147]
2011年1月27日	6.0.2[148]	6.0.3[149]	6.0.1[150]	6.0.1[151]	6.0.1[152]	6.0.1[153]
2011年3月18日		6.0.4[154]

Unicodeの諸問題

バージョンごとの非互換性

Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。

最も有名な事象がUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0でCJK統合漢字拡張Aが割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない^[5]。これについて芝野耕司は「韓国のとった滅茶苦茶な行動」と評している^[6]。

日本語環境でのUnicodeの諸問題

YEN SIGN 問題

Shift_JIS では JIS X 0201 における円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "\" に相当し、C言語などのエスケープシーケンスに使われる事から、この文字のコードを変更すると問題が起きる。そのため Unicode を利用するアプリケーションは U+007F 以下のコードに関しては移動させないという暗黙のルールができている。

そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、それまでの文字コードを使用していたときと同じ感覚で円記号を用いることができる。

この問題は日本語環境に限った事ではない。もともと、ISO646 上で 0x5C を含む数種の文字は自由領域（バリアント）として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国ではウォン記号 (WON SIGN, U+20A9, "₩") である。

波ダッシュ・全角チルダ問題

JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "〜") に対応させているが、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "〜" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "～") に割り当てたため不整合が生じる。この結果、Mac OS 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と、Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照すること。

また、マイクロソフトは同様に EM DASH (U+2014, "—") を HORIZONTAL BAR (U+2015, "―") に、DOUBLE VERTICAL LINE (U+2016, "‖") を PARALLEL TO (U+2225, "∥") に、MINUS SIGN (U+2212, "−") を FULLWIDTH HYPHEN-MINUS (U+FF0D, "－") に割り当てており、これらの変換時にも問題が起こる。Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している^[7]。

一覧

Unicodeの一覧
`0000-0FFF 1000-1FFF 2000-2FFF 3000-3FFF 4000-4FFF 5000-5FFF 6000-6FFF 7000-7FFF`	`8000-8FFF 9000-9FFF A000-AFFF B000-BFFF C000-CFFF D000-DFFF E000-EFFF F000-FFFF`	`10000-10FFF 11000-11FFF 12000-12FFF 13000-13FFF 14000-14FFF 15000-15FFF 16000-16FFF 17000-17FFF`	`18000-18FFF 19000-19FFF 1A000-1AFFF 1B000-1BFFF 1C000-1CFFF 1D000-1DFFF 1E000-1EFFF 1F000-1FFFF`	`20000-20FFF 21000-21FFF 22000-22FFF 23000-23FFF 24000-24FFF 25000-25FFF 26000-26FFF 27000-27FFF`	`28000-28FFF 29000-29FFF 2A000-2AFFF 2B000-2BFFF 2C000-2CFFF 2D000-2DFFF 2E000-2EFFF 2F000-2FFFF`	`E0000-E0FFF`

コード順分類一覧
範囲	名称	日本語名称
U+0000-007F	Basic Latin	基本ラテン文字（ASCII互換）
U+0080-00FF	Latin-1 Supplement	ラテン1補助
U+0100-017F	Latin Extended-A	ラテン文字拡張A
U+0180-024F	Latin Extended-B	ラテン文字拡張B
U+0250-02AF	IPA Extensions	IPA拡張（国際音声記号）
U+02B0-02FF	Spacing Modifier Letters	前進を伴う修飾文字
U+0300-036F	Combining Diacritical Marks	ダイアクリティカルマーク（合成可能）
U+0370-03FF	Greek and Coptic	ギリシア文字及びコプト文字
U+0400-04FF	Cyrillic	キリール文字（キリル文字）
U+0500-052F	Cyrillic Supplement	キリール文字補助
U+0530-058F	Armenian	アルメニア文字
U+0590-05FF	Hebrew	ヘブライ文字
U+0600-06FF	Arabic	アラビア文字
U+0700-074F	Syriac	シリア文字
U+0750-077F	Arabic Supplement	アラビア文字補助
U+0780-07BF	Thaana	ターナ文字
U+07C0-07FF	NKo	ンコ文字
U+0800-083F	Samaritan	サマリア文字 *
U+0840-085F	Mandaic	マンダイック文字 *
U+0900-097F	Devanagari	デーヴァーナーガリー文字
U+0980-09FF	Bengali	ベンガル文字
U+0A00-0A7F	Gurmukhi	グルムキー文字
U+0A80-0AFF	Gujarati	グジャラート文字（グジャラーティー文字）
U+0B00-0B7F	Oriya	オリヤー文字
U+0B80-0BFF	Tamil	タミル文字
U+0C00-0C7F	Telugu	テルグ文字（テルグー文字）
U+0C80-0CFF	Kannada	カンナダ文字
U+0D00-0D7F	Malayalam	マラヤーラム文字
U+0D80-0DFF	Sinhala	シンハラ文字
U+0E00-0E7F	Thai	タイ文字
U+0E80-0EFF	Lao	ラオス文字（ラオ文字、ラーオ文字）
U+0F00-0FFF	Tibetan	チベット文字
U+1000-109F	Myanmar	ミャンマー文字（ビルマ文字）
U+10A0-10FF	Georgian	グルジア文字
U+1100-11FF	Hangul Jamo	ハングル字母
U+1200-137F	Ethiopic	エチオピア文字
U+1380-139F	Ethiopic Supplement	エチオピア文字補助
U+13A0-13FF	Cherokee	チェロキー文字
U+1400-167F	Unified Canadian Aboriginal Syllabics	統合カナダ先住民音節
U+1680-169F	Ogham	オガム文字（オーム文字）
U+16A0-16FF	Runic	ルーン文字
U+1700-171F	Tagalog	タガログ文字
U+1720-173F	Hanunoo	ハヌノオ文字
U+1740-175F	Buhid	ブヒッド文字
U+1760-177F	Tagbanwa	タグバヌワ文字
U+1780-17FF	Khmer	クメール文字
U+1800-18AF	Mongolian	モンゴル文字
U+18B0-18FF	Unified Canadian Aboriginal Syllabics Extended	統合カナダ先住民音節拡張 *
U+1900-194F	Limbu	リンブ文字
U+1950-197F	Tai Le	タイ・ロ文字
U+1980-19DF	New Tai Lue	新タイ・ロ文字
U+19E0-19FF	Khmer Symbols	クメール文字用記号
U+1A00-1A1F	Buginese	ブギス文字
U+1A20-1AAF	Tai Tham	ラーンナー文字 *
U+1B00-1B7F	Balinese	バリ文字
U+1B80-1BBF	Sundanese	スンダ文字 *
U+1BC0-1BFF	Batak	バタク文字 *
U+1C00-1C4F	Lepcha	レプチャ文字 *
U+1C50-1C7F	Ol Chiki	オルチキ文字 *
U+1CD0-1CFF	Vedic Extensions	ヴェーダ文字拡張 *
U+1D00-1D7F	Phonetic Extensions	音声記号拡張
U+1D80-1DBF	Phonetic Extensions Supplement	音声記号拡張補助
U+1DC0-1DFF	Combining Diacritical Marks Supplement	ダイアクリティカルマーク補助（合成可能）補助
U+1E00-1EFF	Latin Extended Additional	ラテン文字拡張追加
U+1F00-1FFF	Greek Extended	ギリシア文字拡張
U+2000-206F	General Punctuation	一般句読点
U+2070-209F	Superscripts and Subscripts	上付き・下付き
U+20A0-20CF	Currency Symbols	通貨記号
U+20D0-20FF	Combining Diacritical Marks for Symbols	記号用ダイアクリティカルマーク（合成可能）
U+2100-214F	Letterlike Symbols	文字様記号
U+2150-218F	Number Forms	数字に準じるもの
U+2190-21FF	Arrows	矢印
U+2200-22FF	Mathematical Operators	数学記号（演算子）
U+2300-23FF	Miscellaneous Technical	その他の技術用記号
U+2400-243F	Control Pictures	制御機能用記号
U+2440-245F	Optical Character Recognition	光学的文字認識、OCR
U+2460-24FF	Enclosed Alphanumerics	囲み英数字
U+2500-257F	Box Drawing	罫線素片
U+2580-259F	Block Elements	ブロック要素
U+25A0-25FF	Geometric Shapes	幾何学模様
U+2600-26FF	Miscellaneous Symbols	その他の記号
U+2700-27BF	Dingbats	装飾記号
U+27C0-27EF	Miscellaneous Mathematical Symbols-A	その他の数学記号A
U+27F0-27FF	Supplemental Arrows-A	補助矢印A
U+2800-28FF	Braille Patterns	ブライユ点字
U+2900-297F	Supplemental Arrows-B	補助矢印B
U+2980-29FF	Miscellaneous Mathematical Symbols-B	その他の数学記号B
U+2A00-2AFF	Supplemental Mathematical Operators	補助数学記号
U+2B00-2BFF	Miscellaneous Symbols and Arrows	その他の記号及び矢印
U+2C00-2C5F	Glagolitic	グラゴル文字
U+2C60-2C7F	Latin Extended-C	ラテン文字拡張C
U+2C80-2CFF	Coptic	コプト文字
U+2D00-2D2F	Georgian Supplement	グルジア文字補助
U+2D30-2D7F	Tifinagh	ティフナグ文字
U+2D80-2DDF	Ethiopic Extended	エチオピア文字拡張
U+2DE0-2DFF	Cyrillic Extended-A	キリール文字拡張A *
U+2E00-2E7F	Supplemental Punctuation	補助句読点
U+2E80-2EFF	CJK Radicals Supplement	CJK部首補助
U+2F00-2FDF	Kangxi Radicals	康熙部首
U+2FF0-2FFF	Ideographic Description Characters	漢字構成記述文字、IDC
U+3000-303F	CJK Symbols and Punctuation	CJKの記号及び句読点
U+3040-309F	Hiragana	平仮名
U+30A0-30FF	Katakana	片仮名
U+3100-312F	Bopomofo	注音字母（注音符号）
U+3130-318F	Hangul Compatibility Jamo	ハングル互換字母
U+3190-319F	Kanbun	漢文用記号（返り点）
U+31A0-31BF	Bopomofo Extended	注音字母拡張
U+31C0-31EF	CJK Strokes	CJKの筆画
U+31F0-31FF	Katakana Phonetic Extensions	片仮名拡張
U+3200-32FF	Enclosed CJK Letters and Months	囲みCJK文字・月
U+3300-33FF	CJK Compatibility	CJK互換用文字
U+3400-4DBF	CJK Unified Ideographs Extension A	CJK統合漢字拡張A
U+4DC0-4DFF	Yijing Hexagram Symbols	易経記号（六十四卦）
U+4E00-9FFF	CJK Unified Ideographs	CJK統合漢字
U+A000-A48F	Yi Syllables	イ文字
U+A490-A4CF	Yi Radicals	イ文字部首
U+A4D0-A4FF	Lisu	リス文字 *
U+A500-A63F	Vai	ヴァイ文字 *
U+A640-A69F	Cyrillic Extended-B	キリール文字拡張B *
U+A6A0-A6FF	Bamum	バムン文字 *
U+A700-A71F	Modifier Tone Letters	声調修飾文字
U+A720-A7FF	Latin Extended-D	ラテン文字拡張D
U+A800-A82F	Syloti Nagri	シロティナグリ文字
U+A830-A83F	Common Indic Number Forms	共通インド数字に準じるもの *
U+A840-A87F	Phags-pa	パスパ文字
U+A880-A8DF	Saurashtra	サウラーシュトラ文字 *
U+A8E0-A8FF	Devanagari Extended	デーヴァーナーガリー文字拡張 *
U+A900-A92F	Kayah Li	カヤー文字 *
U+A930-A95F	Rejang	ルジャン文字（レジャン文字） *
U+A960-A97F	Hangul Jamo Extended-A	ハングル字母拡張A *
U+A980-A9DF	Javanese	ジャワ文字 *
U+AA00-AA5F	Cham	チャム文字 *
U+AA60-AA7F	Myanmar Extended-A	ミャンマー文字拡張A（ビルマ文字拡張A） *
U+AA80-AADF	Tai Viet	タイ・ヴェト文字 *
U+AB00-AB2F	Ethiopic Extended-A	エチオピア文字拡張A *
U+ABC0-ABFF	Meetei Mayek	マニプリ文字 *
U+AC00-D7AF	Hangul Syllables	ハングル音節文字
U+D7B0-D7FF	Hangul Jamo Extended-B	ハングル字母拡張B *
U+D800-DB7F	High Surrogates	上位代用符号位置
U+DB80-DBFF	High Private Use Surrogates	上位私用代用符号位置
U+DC00-DFFF	Low Surrogates	下位代用符号位置
U+E000-F8FF	Private Use Area	私用領域（外字領域）
U+F900-FAFF	CJK Compatibility Ideographs	CJK互換漢字
U+FB00-FB4F	Alphabetic Presentation Forms	アルファベット表示形
U+FB50-FDFF	Arabic Presentation Forms-A	アラビア表示形A
U+FE00-FE0F	Variation Selectors	字形選択子（異体字セレクタ）
U+FE10-FE1F	Vertical Forms	縦書き形
U+FE20-FE2F	Combining Half Marks	半記号（合成可能）
U+FE30-FE4F	CJK Compatibility Forms	CJK互換形
U+FE50-FE6F	Small Form Variants	小字形
U+FE70-FEFF	Arabic Presentation Forms-B	アラビア表示形B
U+FF00-FFEF	Halfwidth and Fullwidth Forms	半角・全角形
U+FFF0-FFFF	Specials	特殊用途文字
U+10000-1007F	Linear B Syllabary	線文字B音節文字
U+10080-100FF	Linear B Ideograms	線文字B表意文字
U+10100-1013F	Aegean Numbers	エーゲ数字
U+10140-1018F	Ancient Greek Numbers	古代ギリシア数字
U+10190-101CF	Ancient Symbols	古代記号 *
U+101D0-101FF	Phaistos Disc	ファイストスの円盤の文字 *
U+10280-1029F	Lycian	リキア文字 *
U+102A0-102DF	Carian	カリア文字 *
U+10300-1032F	Old Italic	古代イタリア文字
U+10330-1034F	Gothic	ゴート文字
U+10380-1039F	Ugaritic	ウガリト文字
U+103A0-103DF	Old Persian	古代ペルシャ文字
U+10400-1044F	Deseret	デザレット文字
U+10450-1047F	Shavian	シェイヴィアン文字
U+10480-104AF	Osmanya	オスマニア文字
U+10800-1083F	Cypriot Syllabary	キプロス音節文字
U+10840-1085F	Imperial Aramaic	アラム文字 *
U+10900-1091F	Phoenician	フェニキア文字
U+10920-1093F	Lydian	リディア文字 *
U+10A00-10A5F	Kharoshthi	カローシュティー文字
U+10A60-10A7F	Old South Arabian	古典南アラビア文字 *
U+10B00-10B3F	Avestan	アヴェスター文字 *
U+10B40-10B5F	Inscriptional Parthian	碑文パルティア文字 *
U+10B60-10B7F	Inscriptional Pahlavi	碑文パフラヴィー文字 *
U+10C00-10C4F	Old Turkic	古テュルク文字 *
U+10E60-10E7F	Rumi Numeral Symbols	ルーミー数字記号 *
U+11000-1107F	Brahmi	ブラーフミー文字 *
U+11080-110CF	Kaithi	カイティ文字 *
U+12000-123FF	Cuneiform	楔形文字
U+12400-1247F	Cuneiform Numbers and Punctuation	楔形文字の数字及び句読点
U+13000-1342F	Egyptian Hieroglyphs	ヒエログリフ文字 *
U+16800-16A3F	Bamum Supplement	バムン文字補助 *
U+1B000-1B0FF	Kana Supplement	かな文字補助 *
U+1D000-1D0FF	Byzantine Musical Symbols	ビザンチン音楽（英語版、ギリシア語版）記号
U+1D100-1D1FF	Musical Symbols	音楽記号
U+1D200-1D24F	Ancient Greek Musical Notation	古代ギリシア音符記号
U+1D300-1D35F	Tai Xuan Jing Symbols	太玄経記号
U+1D360-1D37F	Counting Rod Numerals	算木用数字
U+1D400-1D7FF	Mathematical Alphanumeric Symbols	数学用英数字記号
U+1F000-1F02F	Mahjong Tiles	麻雀牌 *
U+1F030-1F09F	Domino Tiles	ドミノ牌 *
U+1F0A0-1F0FF	Playing Cards	トランプ *
U+1F100-1F1FF	Enclosed Alphanumeric Supplement	囲み英数字補助 *
U+1F200-1F2FF	Enclosed Ideographic Supplement	囲み表意文字補助 *
U+1F300-1F5FF	Miscellaneous Symbols And Pictographs	その他の記号と絵文字 *
U+1F600-1F64F	Emoticons	顔文字 *
U+1F680-1F6FF	Transport And Map Symbols	交通と地図の記号 *
U+1F700-1F77F	Alchemical Symbols	錬金術記号 *
U+20000-2A6DF	CJK Unified Ideographs Extension B	CJK統合漢字拡張B
U+2A700-2B73F	CJK Unified Ideographs Extension C	CJK統合漢字拡張C *
U+2B740-2B81F	CJK Unified Ideographs Extension D	CJK統合漢字拡張D *
U+2F800-2FA1F	CJK Compatibility Ideographs Supplement	CJK互換漢字補助
U+E0000-E007F	Tags	タグ
U+E0100-E01EF	Variation Selectors Supplement	字形選択子補助
U+F0000-FFFFF	Supplementary Private Use Area-A	補助私用領域A
U+100000-10FFFF	Supplementary Private Use Area-B	補助私用領域B

日本語名称がJIS X 0221:2007に掲載されているブロックについてはそれに準拠し、Wikipedia内の他の記事で用いられている名称と異なる場合はその名前も併記した。*印はそれ以降に追加されたブロックであるためJISに基づかない。

脚注

^ 相違点のいくつかはUnicodeベースになる前のDIS 10646に由来する。
^ Unicode Consortium. “Components of The Unicode Version 5.1.0”. 2008年4月5日閲覧。
^ Unicode Consortium. “Unicode 5.1.0”. 2008年4月8日閲覧。
^ Unicode Consortium. “Ideographic Variation Database”. 2008年4月7日閲覧。
^ RFC 3629の5. Versions of the standardsでKorean mess (ハングル大移動) について、8. MIME registrationでUTF-8にバージョン指定がない理由についての言及がある。
^ 小形克宏 (2000年7月20日). “小形克宏の「文字の海、ビットの舟」”. INTERNET Watch. 2011年2月24日閲覧。
^ “Microsoft IME2007 の JIS X 0213 と Unicode の対応”. 2008年4月8日閲覧。

参考資料

用語の日本語表記は原則として次にならった。“Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。

外部リンク

公式サイト（英語）
DecodeUnicode （英語）

Template:Link FA ru Template:Link FA

[1] 相違点のいくつかはUnicodeベースになる前のDIS 10646に由来する。

[2] Unicode Consortium. “Components of The Unicode Version 5.1.0”. 2008年4月5日閲覧。

[3] Unicode Consortium. “Unicode 5.1.0”. 2008年4月8日閲覧。

[4] Unicode Consortium. “Ideographic Variation Database”. 2008年4月7日閲覧。

[5] RFC 3629の5. Versions of the standardsでKorean mess (ハングル大移動) について、8. MIME registrationでUTF-8にバージョン指定がない理由についての言及がある。

[6] 小形克宏 (2000年7月20日). “小形克宏の「文字の海、ビットの舟」”. INTERNET Watch. 2011年2月24日閲覧。

[7] “Microsoft IME2007 の JIS X 0213 と Unicode の対応”. 2008年4月8日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

概要