跳转到内容

User:Arnie97/Unicode字符属性

本页使用了标题或全文手工转换
维基百科,自由的百科全书

这是本页的一个历史版本,由Arnie97留言 | 贡献2018年7月4日 (三) 09:06 (参考来源)编辑。这可能和当前版本存在着巨大的差异。

属性和属性的值有预先定义的名称和缩写[1][2]

名称

Unicode字符拥有一个独一无二的名称(Name),用英文描述了对应字符的性质。名称只由大写拉丁字母AZ),阿拉伯数字09),连字符(-) 和空格这些ASCII字符组成;其中连字符和空格不会连续出现,且不会位于名称的开头和结尾。例如,中文句号 U+3002 的名称是IDEOGRAPHIC FULL STOP中日韩统一表意文字 U+6F22 的名称是CJK UNIFIED IDEOGRAPH-6F22

用于排版的空格等字符同样有自己的名称,如 U+00A0   的名称是NO-BREAK SPACE。但并非所有码位都有相应的名称;控制字符私人使用区(PUA)码位、代理对(Surrogates)、非字符码位(Non-characters)等并没有对应的名称。为了便于辨识这些码位,Unicode为这些码位分配了标签(Code Point Labels);标签的形式通常是包含在尖括号中的小写英文描述,以避免与名称相混淆,例如换行符的码位和标签分别是 U+000A <control-000A>

自Unicode 2.0版本起,已发布的码位名称将永远保持不变。若名称当中出现了拼写错误等情形,更正后的新名称被作为字符别名(Name Alias)分配给这个码位。别名同样是独一无二的,不允许与其他字符的名称或别名相同。

除了上面这些标准化的名称以外,字符还可以有多条非正式名称。这些非正式名称往往取自字符的常用称呼,起到补充说明的作用,不保证唯一性。

区段

区段(Block)指的是码位所属的范围,通常用于组织码位的分配方式。区段会被给予唯一的名称,且区段与区段间不会重叠。通常一个最小的区段至少包含16个码位。

通用类别

每个Unicode码位都属于某个通用类别(General Category),即便是未分配的码位也不例外[3]

参考文献