Unicode

Unicode（中文：萬國碼、國際碼、統一碼、單一碼）是電腦科學領域裡的一項業界標準。它对世界上大部分的文字系統進行了整理、編碼，使得電腦可以用更為簡單的方式來呈現和處理文字。

Unicode伴隨著通用字符集的標準而發展，同時也以書本的形式^[1]對外發表。Unicode至今仍在不斷增修，每個新版本都加入更多新的字符。目前最新的版本為7.0.0，已收入了超過十萬個字符（第十萬個字符在2005年獲採納）。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字符編碼外，還包含了字符特性，如大小寫字母。

Unicode發展由非營利機構統一碼聯盟負責，該機構致力於讓Unicode方案取代既有的字符編碼方案。因為既有的方案往往空間非常有限，亦不適用於多語環境。

Unicode備受认可，並廣泛地應用於電腦軟體的國際化與本地化過程。有很多新科技，如可扩展置标语言、Java程式語言以及現代的作業系統，都採用Unicode編碼。

起源與發展

Unicode是为了解决傳統的字元編碼方案的侷限而產生的，例如ISO 8859-1所定義的字元雖然在不同的國家中廣泛地使用，可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都有一個共同的問題，即容許電腦處理雙語環境（通常使用拉丁字母以及其本地語言），但卻無法同時支援多語言環境（指可同時處理多種語言混合的情況）。

Unicode编码包含了不同写法的字，如“ɑ／a”、“強／强”、“戶／户／戸”。然而在汉字方面引起了一字多形的認定爭議（詳見中日韓統一表意文字主題）。

在文字處理方面，統一碼為每一個字符而非字形定義唯一的代碼（即一個整數）。換句話說，統一碼以一種抽象的方式（即數字）來處理字符，並將視覺上的演繹工作（例如字體大小、外觀形狀、字體形態、文體等）留給其他軟件來處理，例如網頁瀏覽器或是文字處理器。

目前，幾乎所有電腦系統都支持基本拉丁字母，并各自支持不同的其他编码方式。Unicode为了和它们相互兼容，其首256字元保留給ISO 8859-1所定義的字元，使既有的西歐語系文字的轉換不需特別考量；并且把大量相同的字元重複編到不同的字元碼中去，使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換，而不會遺失任何資訊。舉例來說，全形格式區段包含了主要的拉丁字母的全形格式，在中文、日文、以及韓文字形當中，這些字元以全形的方式來呈現，而不以常見的半形形式顯示，這對豎排文字和等寬排列文字有重要作用。

在表示一個Unicode的字元時，通常會用「U+」然後緊接着一組十六進位的數字來表示這一個字元。在基本多文種平面（英文：Basic Multilingual Plane，簡寫BMP。又稱為「零號平面」、plane 0）裏的所有字元，要用四位十六進制數（例如U+4AE0，共支持六萬多個字符）；在零號平面以外的字元則需要使用五位或六位十六進制數了。舊版的Unicode標準使用相近的標記方法，但卻有些微小差異：在Unicode 3.0裏使用「U-」然後緊接着八位數，而「U+」則必須隨後緊接着四位數。

標準

位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入，其成員包含了主要的電腦軟硬體廠商，例如奧多比系統、蘋果公司、惠普、IBM、微軟、施乐等。

20世纪80年代末，組成Unicode組織的商業機構，和國際合作的國際標準化組織因為電腦普及和資訊國際化的前提下，分別各自成立了Unicode組織^[2]和ISO-10646工作小組。他們不久便發現對方的存在，大家為著相同的目的而工作，於是兩個組織便共同合作開發適用於各國語言的通用碼，而且「相當有默契地」各自發表Unicode和ISO-10646字集。雖然實際上兩者的字集編碼相同，但實質上兩者確實為兩個不同的標準。

統一碼聯盟在1991年首次發佈了The Unicode Standard。Unicode的開發結合了國際標準化組織所制定的ISO/IEC 10646，即通用字元集。Unicode與ISO/IEC 10646在編碼的運作原理相同，但The Unicode Standard包含了更詳盡的實現資訊、涵蓋了更細節的主題，諸如位元編碼（bitwise encoding）、校對以及呈現等。The Unicode Standard也列舉了諸多的字元特性，包含了那些必須支援两种阅读方向的文字（由左至右或由右至左的文字阅读方向，例如阿拉伯文是由右至左）。Unicode與ISO/IEC 10646這兩個標準在術語上的使用有些微的不同。

在2005年，Unicode的第十萬個字元被引入成為標準之一，該字元被用於馬來亞拉姆語。

历史

Unicode截至目前為止歷次的版次與發佈時間如下：

Unicode 1.0：1991年10月
Unicode 1.0.1：1992年6月
Unicode 1.1：1993年6月
Unicode 2.0：1997年7月
Unicode 2.1：1998年5月
Unicode 2.1.2：1998年5月
Unicode 3.0：1999年9月；涵蓋了來自ISO 10646-1的十六位元通用字元集（UCS）基本多文種平面（Basic Multilingual Plane）
Unicode 3.1：2001年3月；新增從ISO 10646-2定義的輔助平面（Supplementary Planes）
Unicode 3.2：2002年3月
Unicode 4.0：2003年4月
Unicode 4.0.1：2004年3月
Unicode 4.1：2005年3月
Unicode 5.0：2006年7月
Unicode 5.1：2008年4月
Unicode 5.2：2009年10月
Unicode 6.0：2010年10月
Unicode 6.1：2012年1月31日
Unicode 6.2：2012年9月
Unicode 6.3：2013年9月30日
Unicode 7.0：2014年6月15日

Unicode的编码和实现

大概来说，Unicode编码系统可分为编码方式和实现方式两个层次。

编码方式

統一碼的编码方式与ISO 10646的通用字符集概念相对应。目前实际应用的統一碼版本对应于UCS-2，使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示2¹⁶（即65536）个字符。基本满足各种语言的使用。实际上目前版本的統一碼並未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。

上述16位統一碼字符构成基本多文种平面。最新（但未实际廣泛使用）的統一碼版本定义了16个辅助平面，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与UCS-4保持一致。未来版本会扩充到ISO 10646-1实现级别3，即涵盖UCS-4的所有字符。UCS-4是一个更大的尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示2³¹个字符，完全可以涵盖一切语言所用的符号。

基本多文种平面的字符的编码为U+hhhh，其中每个h代表一个十六进制数字，与UCS-2编码完全相同。而其对应的4字节UCS-4编码后两个字节一致，前两个字节則所有位均为0。

关于統一碼和ISO 10646及UCS的详细关系，見通用字符集。

实现方式

Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）

例如，如果一个仅包含基本7位ASCII字符的Unicode文件，如果每个字符都使用2字节的原Unicode编码传输，其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况，可以使用UTF-8编码，这是一种变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他Unicode字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大大节省了编码长度（具体方案参见UTF-8）。类似的，对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符，2字节编码的UTF-16也需要通过一定的算法进行转换。

再如，如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在麥金塔電腦（Mac）机和個人電腦上，对字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS環境下開啟会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了大端序（Big-Endian，简写为UTF-16 BE）、小端序（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的位元組順序記號解决方案，目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。（具体方案参见UTF-16）

此外Unicode的实现方式还包括UTF-7、Punycode、CESU-8、SCSU、UTF-32、GB18030等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司Windows XP附带的记事本（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI（对于英文系统即ASCII编码，中文系统则为GB2312或Big5编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。

目前辅助平面的工作主要集中在第二和第三平面的中日韩统一表意文字中，因此包括GBK、GB18030、Big5等简体中文、繁体中文、日文、韩文以及越南喃字的各种编码与Unicode的协调性被重点关注。考虑到Unicode最终要涵盖所有的字符。从某种意义而言，这些编码方式也可视作Unicode的出现于其之前的既成事实的实现方式，如同ASCII及其扩展Latin-1一样，后两者的字符在16位Unicode编码空间中的编码第一字节各位全为0，第二字节编码与原编码完全一致。但上述东亚语言编码与Unicode编码的对应关系要复杂得多。

Unicode字符平面映射

非Unicode环境

在非Unicode环境下，由于不同国家和地区采用的字符集不一致，很可能出现无法正常显示所有字符的情况。微软公司使用了代码页（Codepage）转换表的技术来过渡性的部分解决这一问题，即通过指定的转换表将非Unicode的字符编码转换为同一字符对应的系统内部使用的Unicode编码。可以在“语言与区域设置”中选择一个代码页作为非Unicode编码所采用的默认编码方式，如936为简体中文GB码，950为繁体中文Big5（皆指PC上使用的）。在这种情况下，一些非英语的欧洲语言编写的软件和文档很可能出现乱码。而将代码页设置为相应语言中文处理又会出现问题，这一情况无法避免。只有完全采用统一编码才能徹底解決這些問題，但目前尚无法做到这一点。

代码页技术现在广泛为各种平台所采用。UTF-7的代码页是65000，UTF-8的代码页是65001。

XML和Unicode

XML及其子集XHTML采用UTF-8作为标准字集，理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页，只要电脑本身安装有合适的字体即可。可以利用&#nnn;的格式显示特定的字符。nnn代表该字符的十进制Unicode代码。如果采用十六进制代码，在编码之前加上x字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。

过去电脑编码的8位标准，使每个国家都只按国家使用的字符而编定各自的编码系统；而对於部份字符系统比较复杂的语言，如越南语，又或者东亚国家的大型字符集，都不能在8位的环境下正常显示。

只是最近才有在文本中对十六进制的支持，那么旧版本的浏览器显示那些字符或许可能有问题-大概首先会遇到的一个问题只是在对于大于8位Unicode字符的显示。解决这个问题的普遍做法仍然是将其中的十六进制码转换成一个十进制码（例如：♠用♠代替♠）。

也有一些字符集标准将一些常用的标志存放在字符内码外面，那么你可能使用象—这样的文本标志来表示一个长划（—）的情况，即使它的字符内码已经被使用，这些标准也不包含那个字符。

然而部分由于Unicode版本发展原因，很多浏览器只能显示UCS-2完整字符集，也即现在使用的Unicode版本中的一个小子集。下表可以检验您的浏览器如何显示各种Unicode代码：

代码	字符标准名称（英语）	在浏览器上的显示
`A`	大写拉丁字母“A”	A
`ß`	小写拉丁字母“Sharp S”	ß
`þ`	小写拉丁字母“Thorn”	þ
`Δ`	大写希腊字母“Delta”	Δ
`Й`	大写斯拉夫字母“Short I”	Й
`ק`	希伯来字母“Qof”	ק
`م`	阿拉伯字母“Meem”	م
`๗`	泰文数字7	๗
`ቐ`	埃塞俄比亚音节文字“Qha”	ቐ
`あ`	日语平假名“A”	あ
`ア`	日语片假名“A”	ア
`叶`	简体汉字“叶”	叶
`葉`	繁体汉字“葉”	葉
`엽`	韩国音节文字“Yeop”	엽

一些多语言支持的网页浏览器，比如微软 Windows系统的Internet Explorer 5.5及以上版本，以及跨平台的浏览器Mozilla／Netscape 6，可以在安裝時根据需要动态地使用相应的字符集，预先安装了合适的语言包，就可以同时显示页面上的各种Unicode字符。Internet Explorer 5.5还提出用户可以在需要新字体时，即装即用。另外的浏览器如Netscape Navigator 4.77，则只能显示跟页面编码相应字符集中的文字。当你使用后一种浏览器时，你不大可能预先安装所有的字体，即使有了字体，浏览器也不一定能将这些字体完全应用起来。可能遇到的情况是，这种浏览器只能够显示部分文字，因为它们是按照标准进行编码，尽管理论上在兼容的系统中，只要有了相应的Code2000字体，就可以正确显示。一种变通的办法，是将某些少见的字符，通过“名称实体引用”的方式来使用。

输入方法

中文輸入法

截至2011年10月，可以使用微軟拼音2003或2007版本，倉頡輸入法第三代第五代第六代版本，鄭碼Unicode版本，海峰五筆9.3版本，新注音輸入法和VimIM進行輸入。

微軟拼音在輸入法啟動狀態下，單擊語言欄上的「功能選單」按鈕，指向「輔助輸入法」即可發現「Unicode碼輸入方式」，利用它可以直接輸入Unicode相應十六進制值的方式輸入相應文字。例如中文「胥」輸入「5066」，朝鮮文字「셅」輸入「c145」（不需要在前面加0x或x）。
倉頡輸入法已爲Unicode漢字、類漢字編碼，可以在倉頡輸入法方式下通過倉頡碼輸入方式輸入Unicode內的中日韓漢字及韓文。以倉頡輸入法第五代爲例，例如漢字「㗎」輸入「口大口木」，漢字「胥」輸入「弓人月」，漢字「㿱」輸入「手中木竹水」，朝鮮文字「닮」輸入「尸卜尸女口」。
鄭碼已爲Unicode漢字、類漢字編碼，可以在鄭碼輸入法方式下通過鄭碼字碼輸入方式輸入Unicode內的中日韓漢字及韓文。例如漢字「㗎」輸入「JYJF」，漢字「胥」輸入「XIQ」，漢字「㿱」輸入「DPXI」，朝鮮文字「길」輸入「XIYY」。
海峰五筆此輸入法已經直接支持透過五筆碼輸入方式輸入Unicode內的任意中日韓漢字，但無法使用鍵入Unicode碼的方式輸入。例如漢字（Unicode部分）「㗎」為「keks」，CJK擴展B區的「𣿱」為「iyho」和CJK擴展C區的「𫆦」為「muih」。
新注音輸入法在輸入法啟動狀態時，打入鍵盤上的「多功能前導字元鍵」（及通用鍵盤上之「`」），第一次使用會彈出說明。輸入Unicode字元「胥」則是在鍵盤上鍵入「`U5066」。而韓語中的「셅」，則輸入「`UC145」。而要輸入日語自製漢字「峠」，則是「`U5CE0」。
VimIM在Vim環境中，可以直接鍵入十進制或十六進制Unicode碼。既不需要啟動輸入法，也不需要碼表。
嘸蝦米輸入法，支援Unicode，以26個英文字母為組字按鍵，支援基本正體中文、簡體中文外，還可直接輸入符號、日文漢字及平假名、片假名。

日文输入法

使用Microsoft IME 2007，可以在IME PAD裡找到Unicode的点击表。点击字符即可输入。选择字体可以预览字符效果。

其他

除了輸入法外，操作系統也會提供另外幾種方法輸入Unicode。像是Windows 2000之後的Windows系統就提供一個可點擊的字符映射表。又或者在Microsoft Word下，按下Alt鍵不放，輸入0和某個字符的Unicode编码（十进制），再鬆開Alt键即可得到该字符，如Alt + 033865會得到Unicode字元葉。另外按Alt + X组合键，MS Word也会将光标前面的字符同其十六进制的四位Unicode编码进行互相转换。

漢字問題

統一碼這種為數萬漢字逐一編碼的方式很浪費資源，且要把漢字增加到標準中也并不容易，因此去研究以汉字部件產生漢字的方法（如動態組字），期望取代為漢字逐一編碼的方法。Unicode委员会在关于中文和日语的常用问题列表^[3]裏回答了此問題。主要问题是汉字中各个组件的相对大小不是固定的。比如“员”字，由“口”和“贝”组成，而“呗”也是由“口”和“贝”组成，但其相对位置和大小并不一致。还有一些其他原因，比如字符比较和排序时需要先对编码流进行分析后才能得到各个字符，增加处理程序复杂性等。

另一个问题是：由于中国历代字书有收录讹字（即错别字）的习惯，因此Unicode编码中收入大量讹字，占据大量空间，引发批评^{[來源請求]}。电脑文件中若使用错讹字，在用正确字做检索时，用错讹字写出的同一个词语无法检出。

注釋

^ The Unicode Standard 第五版. Addison-Wesley Professional. ISBN 0321480910.
^ http://www.unicode.org Unicode/
^ Why doesn't the Unicode Standard adopt a compositional model for encoding Han ideographs? Wouldn't that save a large number of code points?

外部链接

Unicode official site（Unicode官方網站）
Unicode Consortium（Unicode聯盟）
Unicode 7.0.0
DecodeUnicode - Unicode WIKI，提供Unicode 6.0全部109,242個字的GIF字型預覽
Alan Wood's Unicode Resources
The International Phonetic Alphabet in Unicode（國際音標的Unicode编碼）
CJK Compatibility Ideographs（中日韓兼容表意文字）
Unicode character charts（Unicode字符映射表）
UTF-8和Unicode的常見問題
UTF-8 Codepage（UTF-8代碼頁）

Template:Link FA

[1] The Unicode Standard 第五版. Addison-Wesley Professional. ISBN 0321480910.

[2] ttp://www.unicode.org Unicode/

[han_cjk-3] Why doesn't the Unicode Standard adopt a compositional model for encoding Han ideographs? Wouldn't that save a large number of code points?

[1]

[2]

[3]

查论编字符编码
早期電信	電報電碼（英语：Telegraph code）庫克與惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里爾字母（英语：Russian Morse code）韓文（英语：SKATS）博多與莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）電傳文訊（英语：Teletex）與電傳視訊（英语：Videotex）／電視資訊 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系統電傳文訊（英语：World System Teletext）字元集（英语：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英语：ISO-IR-111）薩米文（英语：ISO-IR-197）改編威爾斯文（英语：ISO-IR-182）巴倫支西里爾字母（英语：ISO-IR-200）愛沙尼亞文（英语：Code page 922）烏克蘭西里爾字母（英语：Code page 1124）
書目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文資訊交換碼 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
國家標準	ArmSCII BraSCII（英语：BraSCII）中文標準交換碼 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亞美尼亞文（英语：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英语：Mac OS Barents Cyrillic）凱爾特語族（英语：Mac OS Celtic）中歐語言克羅埃西亞文（英语：Mac OS Croatian encoding）西里爾字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字體X（英语：Macintosh Font X encoding）蓋爾文（英语：Mac OS Gaelic）喬治亞文（英语：Mac OS Georgian）希臘文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯來文（英语：Mac OS Hebrew）冰島文（英语：Mac OS Icelandic encoding）因紐特文（英语：Mac OS Inuit）鍵盤（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）馬爾他文／世界文（英语：Mac OS Maltese/Esperanto encoding）歐甘字母（英语：Mac OS Ogham）羅曼語族羅馬尼亞文（英语：Mac OS Romanian encoding）薩米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里爾字母（英语：Mac OS Turkic Cyrillic）烏克蘭文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代碼頁	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系統（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）馬索維亞（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代碼頁	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代碼頁（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里爾字母+芬蘭文（英语：Windows Cyrillic + Finnish）西里爾字母+法文（英语：Windows Cyrillic + French）西里爾字母+德文（英语：Windows Cyrillic + German）希臘語變音符號（英语：Windows Polytonic Greek）
EBCDIC代碼頁	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC終端機（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英國英文（英语：Code page 1101）荷蘭文（英语：Code page 1102）芬蘭文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麥文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麥文（替代）（英语：Code page 1107） 8位元希臘文（英语：Code page 1287） 8位元土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯來文（英语：DEC Hebrew）特殊圖形（英语：DEC Special Graphics）技術（英语：DEC Technical Character Set）
特定平臺	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe標準（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅達利資訊交換標準碼（英语：ATASCII）雅達利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西歐計算機（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG國際（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普計算機（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克萊QL（英语：Sinclair QL character set）符號電傳文訊（英语：Teletext character set）德州儀器計算機（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文圖拉國際（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode編碼比較（英语：Comparison of Unicode encodings）
TeX排版系統	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代碼頁	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五碼 APL符號數位編碼（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7位元（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字鏡 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）統合韓文代碼（英语：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韓統一表意文字硬體代碼頁（英语：Hardware code page）磁性墨水字元識別碼（英语：Magnetic ink character recognition）亂碼中文乱码可变宽度编码
字元集