Normalisation Unicode

La normalisation Unicode est une normalisation de texte qui transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement comparée.

NFD

Les caractères sont décomposés par équivalence canonique et réordonnés.

Exemples

	caractères		forme normalisée
à	a + ̀	=	a + ̀
ẹ́	e + ́ + ̣	→	e + ̣ + ́
ñ	ñ	→	n + ̃
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	=	ﬁ
²	²	=	²

NFC

Les caractères sont décomposés par équivalence canonique, réordonnés, et composés par équivalence canonique.

Exemples

	caractères		forme normalisée
à	a + ̀	→	à
ẹ́	e + ́ + ̣	→	ẹ + ́
ñ	ñ	→	ñ
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	=	ﬁ
²	²	=	²

NFKD

Les caractères sont décomposés par équivalence canonique et de compatibilité, et sont réordonnés.

Exemples

	caractères		forme normalisée
à	a + ̀	=	a + ̀
ẹ́	e + ́ + ̣	→	e + ̣ + ́
ñ	ñ	→	n + ̃
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	=	f + i
²	²	→	2

NFKC

Les caractères sont décomposés par équivalence canonique et de compatibilité, sont réordonnés et sont composés par équivalence canonique.

Exemples

	caractères		forme normalisée
à	a + ̀	→	à
ẹ́	e + ́ + ̣	→	ẹ + ́
ñ	ñ	=	ñ
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	→	f + i
²	²	→	2

Annexes

Articles connexes

Liens externes

Formes de normalisation

v · m Unicode
Jeux de caractères de base	UCS (ISO/CEI 10646) Table des caractères Unicode ISO/CEI 646, ASCII ISO/CEI 8859-1 WGL4 Unihan
Codification de fichiers et protocoles	UTF-8 UTF-16 UTF-32 CESU-8 UTF-7 BOCU-1 SCSU BOM
Adaptations de référence	UTF-EBCDIC (Amérique, Europe occidentale) ISO/CEI 8859-11 (ou TIS-620) (Thaïlande) ISCII (Inde) SLS 1326 (ou TSCII) (Sri Lanka) Shift-JIS (Japon) GB 18030 (Chine) HKSCS (Hong Kong)
Équivalences standards	NFC (forme précomposée, recommandée) NFD (forme décomposée) NFKC (forme précomposée de compatibilité) NFKD (forme décomposée de compatibilité)
Propriétés et algorithmes	Texte bidirectionnel Casse Ordonnancement UCA
Transformations	Stringprep Punycode
Standards et normes liés	BCP 47 (étiquettes IETF d’identification de langues) ISO 639 (codes pour la représentation des noms de langues ou groupes de langues) ISO 15924 (codes pour la représentation des noms d’écritures) ISO 3166-1 (codes pour la représentation des noms de pays ou régions du monde) ISO 4217 (codes pour la représentation des noms de devises monétaires)
Mises en œuvre et applications	ICU CLDR IDN IRI Entités de caractère XLM et HTML OpenType Uniscribe Courriel et Unicode