User:Arnie97/Unicode字符属性

名称

Unicode字符拥有一个独一无二的名称（na），用英文描述了对应字符的性质。名称只由大写拉丁字母（A至Z），阿拉伯数字（0至9），连字符（-）和空格这些ASCII字符组成；其中连字符和空格不会连续出现，且不会位于名称的开头和结尾。例如，中文句号 U+3002 。的名称是IDEOGRAPHIC FULL STOP；中日韩统一表意文字 U+6F22 漢的名称是CJK UNIFIED IDEOGRAPH-6F22。

用于排版的空格等字符同样有自己的名称，如 U+00A0 的名称是NO-BREAK SPACE。但并非所有码位都有相应的名称；控制字符、私人使用区（PUA）码位、代理对（Surrogates）、非字符码位（Non-characters）等并没有对应的名称。为了便于辨识这些码位，Unicode为这些码位分配了标签（Code Point Labels）；标签的形式通常是包含在尖括号中的小写英文描述，以避免与名称相混淆，例如换行符的码位和标签分别是 U+000A <control-000A> 。

自Unicode 2.0版本起，已发布的码位名称将永远保持不变。若名称当中出现了拼写错误等情形，更正后的新名称被作为字符别名（Character Name Alias）分配给这个码位。别名同样是独一无二的，不允许与其他字符的名称或别名相同。

除了上面这些标准化的名称以外，字符还可以有多条非正式名称。这些非正式名称往往取自字符的常用称呼，起到补充说明的作用，不保证唯一性。

通用类别

每个Unicode码位都属于某个通用类别（General Category），即便是未分配的码位和非字符码位也不例外。