Unicode

Unicode és un estàndard internacional de codificació de caràcters en suports informàtics. El seu objectiu és proporcionar el mitjà per a permetre emmagatzemar qualsevol text que es desitgi. Això inclou qualsevol mena de forma d'escriptura que es faci servir actualment, moltes formes d'escriptura conegudes només pels estudiosos i altra mena de símbols com ara els símbols matemàtics, lingüístics i APL.[1]
Unicode és un estàndard mantingut pel Unicode Technical Committee (UTC), integrat en el Consorci Unicode, del qual formen part amb diferent grau d'implicació empreses com: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual. [2] El Unicode Consortium manté estreta relació amb ISO/IEC, amb la qual manté des de 1991 l'acord de sincronitzar els seus estàndards que contenen els mateixos caràcters i punts de codi. [3]
Unicode és un projecte que pretén reemplaçar tota mena de conjunt de caràcters existent. Avui en dia, Unicode es considera el conjunt de caràcters més complet i ha esdevingut l'opció a triar en la internacionalització de programari en entorns multilingües. Molts estàndards recents i programari bàsic han adoptat Unicode per a representar text.[4] Unicode ha esdevingut el més extens i complet esquema de codificació de caràcters, sent el dominant en la internacionalització i adaptació local del programari informàtic. L'estàndard ha estat implementat en un nombre considerable de tecnologies recents, que inclouen XML, Java i sistemes operatius moderns.
Formes d'escriptura suportades
Unicode contempla gairebé qualsevol mena de forma d'escriptura utilitzada actualment[5]:
També suporta símbols (matemàtics, lògics, musicals...), ornamentació i sistemes d'escriptura de l'antiguitat, com ara l'ogham, les runes, el lineal A i B o els diacrítics del grec clàssic.
Tractament de la informació
Formes de codificació
Els punts de codi d'Unicode s'identifiquen per un nombre enter. Segons la seva arquitectura, un ordinador utilitzarà unitats de 8, 16 o 32 bits per representar aquests punts. Les formes de codificació d'Unicode reglamenten la forma en què els punts de codi es transformaran en unitats tractables per l'ordinador.
Unicode defineix tres formes de codificació amb el nom UTF (Unicode transformation format, en català format de transformació Unicode): [6]
- UTF-8: codificació orientada a byte amb símbols de longitud variable.
- UTF-16: codificació de 16 bits de longitud variable optimitzada per a la representació del pla bàsic multilingüe (BMP).
- UTF-32: codificació de 32 bits de longitud fixa, i la més senzilla de les tres.
Les formes de codificació es limiten a descriure la manera com es representen els punts de codi en format intel·ligible per la màquina. A partir de les 3 formes identificades es defineixen 7 esquemes de codificació.
Esquemes de codificació
Els esquemes de codificació tracten de la forma en què es serialitza la informació codificada. [6] La seguretat en els intercanvis d'informació entre sistemes heterogenis requereix la implementació de sistemes que permetin determinar l'ordre correcte dels bits i bytes i garantir que la reconstrucció de la informació és correcta. Una diferència fonamental entre processadors és l'ordre de disposició dels bytes en paraules de 16 i 32 bits, el que s'anomena endianness. Els esquemes de codificació han de garantir que els extrems d'una comunicació saben com interpretar la informació rebuda. A partir de les 3 formes de codificació es defineixen 7 esquemes. Tot i que comparteixen noms, no s'ha de confondre esquemes i formes de codificació.
Esquema de codificació | Endianness | Admet BOM |
UTF-8 | No aplicable | Sí |
UTF-16 | Big-endian o Little-endian | Sí |
UTF-16BE | Big-endian | No |
UTF-16LE | Little-endian | No |
UTF-32 | Big-endian o Little-endian | Sí |
UTF-32BE | Big-endian | No |
UTF-32LE | Little-endian | No |
Unicode defineix una marca especial, la marca d'ordre de bytes (BOM, Byte Order Mark), a l'inici d'un fitxer o una comunicació per fer explícita l'ordenació de bytes. Quan un protocol superior especifica l'ordre de bytes, la marca no és necessària i pot ometre donant lloc als esquemes de la llista anterior amb sufix BE o LI. En els esquemes UTF-16 i UTF-32, que admeten BOM, si aquest no s'especifica s'assumeix que l'ordenació de bytes és big-endian.
La unitat de codificació en UTF-8 és el byte de manera que no necessita una indicació d'ordre de byte. L'estàndard ni requereix ni recomana la utilització de BOM, però ho admet com a marca que el text és Unicode o com a resultat de la conversió d'altres esquemes.
Vegeu també
Referències
- ↑ «Summary Narrative» (en anglès). [Consulta: 1r juliol 2014].
- ↑ Error: hi ha títol o url, però calen tots dos paràmetres.«». [Consulta: 15 maig 2012].
- ↑ The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode5.0.0/appC.pdf Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0.
- ↑ «Unicode». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
- ↑ «Supported Scripts» (en anglès). [Consulta: 1r juliol 2014].
- ↑ 6,0 6,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0.