User:Arnie97/Unicode字符属性
外观

名称
Unicode字符拥有一个独一无二的名称(na),用英文描述了对应字符的性质。名称只由大写拉丁字母(A
至Z
),阿拉伯数字(0
至9
),连字符(-
) 和空格这些ASCII字符组成;其中连字符和空格不会连续出现,且不会位于名称的开头和结尾。例如,中文句号 U+3002 。 的名称是IDEOGRAPHIC FULL STOP
;中日韩统一表意文字 U+6F22 漢 的名称是CJK UNIFIED IDEOGRAPH-6F22
。
用于排版的空格等字符同样有自己的名称,如 U+00A0 的名称是NO-BREAK SPACE
。但并非所有码位都有相应的名称;控制字符、私人使用区(PUA)码位、代理对(Surrogates)、非字符码位(Non-characters)等并没有对应的名称。为了便于辨识这些码位,Unicode为这些码位分配了标签(Code Point Labels);标签的形式通常是包含在尖括号中的小写英文描述,以避免与名称相混淆,例如换行符的码位和标签分别是 U+000A <control-000A> 。
自Unicode 2.0版本起,已发布的码位名称将永远保持不变。若名称当中出现了拼写错误等情形,更正后的新名称被作为字符别名(Character Name Alias)分配给这个码位。别名同样是独一无二的,不允许与其他字符的名称或别名相同。
除了上面这些标准化的名称以外,字符还可以有多条非正式名称。这些非正式名称往往取自字符的常用称呼,起到补充说明的作用,不保证唯一性。
通用类别
每个Unicode码位都属于某个通用类别(General Category),即便是未分配的码位和非字符码位也不例外。