跳转到内容

Unicode補完計畫

维基百科,自由的百科全书

这是本页的一个历史版本,由140.117.199.194留言2005年6月19日 (日) 19:48编辑。这可能和当前版本存在着巨大的差异。

(差异) ←上一修订 | 最后版本 (差异) | 下一修订→ (差异)

Unicode補完計畫台灣民間使用者針對Big-5編碼長久以來的缺字問題所提出的解決方案之一。其原理在於將Big-5造字區的一部份和Unicode的部分字元作雙向對應,以達到藉助外字集,而使Big-5文件或檔名能使用原先僅在Unicode中存在的文字之目的。

「Unicode補完計畫」不等於Unicode。當你看見有人說「我安裝了Unicode」,通常是他把「Unicode補完計畫」和Unicode搞混了。

原理

Big-5僅收錄了13,053個中文字,這對某些使用者而言確實是不足:例如日文假名,人名、科學用的特殊字等等。長久以來解決這種問題的方式都是加裝各種外字集,例如櫻花輸入法中國海字集等等;但目前世界的潮流是以全面Unicode化為目標,以外字集根本難以作為資料交換之用,除非對方也安裝了該外字集。

Unicode補完計畫試著以修改字碼表的方式解決這個問題。在作業系統中內定有數份字碼表,處理Unicode和非Unicode字碼的對應。在預設狀態下,Big-5的造字區是和Unicode的造字區作雙向對應的,也就是說當電腦讀取到某個原先是落在造字區的內碼時,電腦會去讀取與其相對應的Unicode字元;而換上Unicode補完計畫修改過的字碼表後,Big-5的造字區改成和Unicode的特定字元作雙向對應。結果是,在補完前這個字是空白的(Unicode的造字區),所以使用者會看到空白的字;補完後這個字則是Unicode的某字元,所以使用者看到的就是那個字元。

和造字不同的是,Unicode補完計畫讓這些字元保持了流通性:在補完後的電腦上,當這些字元從Big-5轉移到Unicode時,它們全都會被對應回正確的Unicode位置,之後即使是未補完電腦的使用者,只要他的系統與程式支援Unicode,在讀取這些文字時,就完全沒有問題。

作業平台

Unicode補完計畫主要是開發在NT架構的Windows作業系統上(Windows 2000Windows XP),之後又支援ANSI架構的Windows(Windows 98Windows ME)。

Linux上也有另外的使用者,開發Linux版的補完計畫。

完成度

Unicode補完計畫的基本對應參考是「中國海字集」,加上部分「香港增補字符集」的字元而成。 目前完成對應的字元(2.40 Alpha 4)共約5300個,茲摘錄重點如下:

  • 日文假名字(使得Unicode補完計畫可以替代櫻花輸入法);
  • 所有出現於GB2312的漢字;
  • 所有出現於Shift_JIS的漢字;
  • 「香港增補字符集」中,Unicode碼落在U+4E00~U+9FFF內的所有漢字。

使用上的問題

「Unicode補完計畫」原先的立意是避免利用造字,以達成擴充Big-5的目的:但由於Unicode環境尚未成熟,以及使用者的誤用,Unicode補完計畫有時反而為使用者本身--甚至其他使用者--帶來了其他的麻煩。

新舊檔名

網頁交換

系統缺字

其他問題

外部連結