Aller au contenu

Normalisation Unicode

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 15 mars 2013 à 06:48 et modifiée en dernier par Addbot (discuter | contributions) (Retrait de 4 liens interlangues, désormais fournis par Wikidata sur la page d:q250798). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

La normalisation Unicode est une normalisation de texte qui transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement comparée.

La décomposition canonique peut être utilisée dans l’échange normalisé de textes. Elle permet d’effectuer une comparaison binaire tout en conservant une équivalence canonique avec le texte non normalisé d’origine.

NFD

Les caractères sont décomposés par équivalence canonique et réordonnés.

Exemples NFD
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU+0041 + ◌̀U+0300 = AU+0041 + ◌̀U+0300
ẹ́ eU+0065 + ◌́U+0301 + ◌̣U+0323 eU+0065 + ◌̣U+0323 + ◌́U+0301 ẹ́
ñ ñU+00F1 nU+006E + ◌̃U+0303
(ohm) U+2126 ΩU+03A9 Ω (oméga)
fi (ligature) U+FB01 = U+FB01 fi (ligature)
² (exposant) ²U+00B2 = ²U+00B2 ² (exposant)
U+D55C U+1112 + U+1161 + U+11A8 학
が U+304B + ◌゙U+3099 = U+304B + ◌゙U+3099 が
ئ ئU+0626 يU+064A + ◌ٔU+0654 ئ

NFC

Les caractères sont décomposés par équivalence canonique, réordonnés, et composés par équivalence canonique.

Exemples NFC
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU+0041 + ◌̀U+0300 ÀU+00C0 À
ẹ́ eU+0065 + ◌́U+0301 + ◌̣U+0323 U+1EB9 + ◌́U+0301 ẹ́
ñ ñU+00F1 = ñU+00F1 ñ
(ohm) U+2126 ΩU+03A9 Ω (oméga)
fi (ligature) U+FB01 = U+FB01 fi (ligature)
² (exposant) ²U+00B2 = ²U+00B2 ² (exposant)
U+D55C = U+D55C
が U+304B + ◌゙U+3099 U+304C
ئ ئU+0626 = ئU+0626 ئ

NFKD

Les caractères sont décomposés par équivalence canonique et de compatibilité, et sont réordonnés.

Exemples NFKC
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU+0041 + ◌̀U+0300 = AU+0041 + ◌̀U+0300
ẹ́ eU+0065 + ◌́U+0301 + ◌̣U+0323 eU+0065 + ◌̣U+0323 + ◌́U+0301 ẹ́
ñ ñU+00F1 nU+006E + ◌̃U+0303
(ohm) U+2126 ΩU+03A9 Ω (oméga)
fi (ligature) U+FB01 fU+0066 + iU+0069 fi
² (exposant) ²U+00B2 2U+0032 2
U+D55C U+1112 + U+1161 + U+11A8 학
が U+304B + ◌゙U+3099 = U+304B + ◌゙U+3099 が
ئ ئU+0626 يU+064A + ◌ٔU+0654 ئ

NFKC

Les caractères sont décomposés par équivalence canonique et de compatibilité, sont réordonnés et sont composés par équivalence canonique.

Exemples NFKC
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU+0041 + ◌̀U+0300 ÀU+00C0 À
ẹ́ eU+0065 + ◌́U+0301 + ◌̣U+0323 U+1EB9 + ◌́U+0301 ẹ́
ñ ñU+00F1 = ñU+00F1 ñ
(ohm) U+2126 ΩU+03A9 Ω (oméga)
fi (ligature) U+FB01 fU+0066 + iU+0069 fi
² (exposant) ²U+00B2 2U+0032 2
U+D55C U+D55C
が U+304B + ◌゙U+3099 U+304C
ئ ئU+0626 = ئU+0626 ئ

Annexes

Articles connexes

Liens externes