Normalisation Unicode

La normalisation Unicode est une normalisation de texte qui transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement comparée.

NFD

Les caractères sont décomposés par équivalence canonique et réordonnés.

Exemples

	caractères		forme normalisée
à	a + ̀	=	a + ̀
ẹ́	e + ́ + ̣	→	e + ̣ + ́
ñ	ñ	→	n + ̃
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	=	ﬁ
²	²	=	²

NFC

Les caractères sont décomposés par équivalence canonique, réordonnés, et composés par équivalence canonique.

Exemples

	caractères		forme normalisée
à	a + ̀	→	à
ẹ́	e + ́ + ̣	→	ẹ + ́
ñ	ñ	→	ñ
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	=	ﬁ
²	²	=	²

NFKD

Les caractères sont décomposés par équivalence canonique et de compatibilité, et sont réordonnés.

Exemples

	caractères		forme normalisée
à	a + ̀	=	a + ̀
ẹ́	e + ́ + ̣	→	e + ̣ + ́
ñ	ñ	→	n + ̃
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	=	f + i
²	²	→	2

NFKC

Les caractèrs sont décomposés par équivalence canonique et de compatibilité, sont réordonnés et sont composés par équivalence canonique.

Exemples

	caractères		forme normalisée
à	a + ̀	→	à
ẹ́	e + ́ + ̣	→	ẹ + ́
ñ	ñ	=	ñ
Ω (ohm)	Ω	→	Ω (omega)
ﬁ (ligature)	ﬁ	→	f + i
²	²	→	2

Voir aussi

Liens externes

Formes de normalisation