Unicode

Unicode és un estàndard internacional de codificació de caràcters, per a suports informàtics. Permet emmagatzemar qualsevol mena d'escriptura que es faci servir actualment, moltes formes d'escriptura conegudes només pels estudiosos, i símbols com ara els símbols matemàtics, lingüístics, i APL.^[1]

Està mantingut pel Unicode Technical Committee (UTC), integrat al Consorci Unicode, del qual formen part empreses com: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo!, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual.^[2] De del 1991, l'Unicode Consortium i la ISO/IEC estan d'acord a els mantenir els mateixos codis per als mateixos caràcters.^[3]

Unicode és un projecte que pretén reemplaçar tota mena de conjunt de caràcters existent. Avui en dia, Unicode es considera el conjunt de caràcters més complet i ha esdevingut l'opció a triar en la internacionalització de programari en entorns multilingües. Molts estàndards recents i programari bàsic han adoptat Unicode per a representar text.^[4] Unicode ha esdevingut el més extens i complet esquema de codificació de caràcters, sent el dominant en la internacionalització i adaptació local del programari informàtic. L'estàndard ha estat implementat en un nombre considerable de tecnologies recents, que inclouen XML, Java i sistemes operatius moderns.

Formes d'escriptura admeses

Unicode contempla gairebé qualsevol mena de forma d'escriptura utilitzada actualment:^[5]

Grec
Gujarati (índic)
Gurmukhi (índic)
Hangul (coreà)
Han (kanji, hanja, CJK, Xinès)
Japonès (kanji amb hiragana i katakana.)
Hebreu
Hiragana
Katakana
Khmer (cambodjà)
Kannada (índic)
Lao

Llatí
Malai (índic)
Mongol
Myanmar (birmà)
Oriya (índic)
Siríac
Tàmil
Tailandès
Tibetà
Yi
I altres.

També suporta símbols (matemàtics, lògics, musicals...), ornamentació i sistemes d'escriptura de l'antiguitat, com ara l'ogham, les runes, el lineal A i B o els diacrítics del grec clàssic.

Tractament de la informació

Formes de codificació

Els punts de codi d'Unicode s'identifiquen per un nombre enter. Segons la seva arquitectura, un ordinador utilitzarà unitats de 8, 16 o 32 bits per representar aquests punts. Les formes de codificació d'Unicode reglamenten la forma en què els punts de codi es transformaran en unitats tractables per l'ordinador.

Unicode defineix tres formes de codificació amb el nom UTF (Unicode transformation format, en català format de transformació Unicode): ^[6]

UTF-8: codificació orientada a byte amb símbols de longitud variable.
UTF-16: codificació de 16 bits de longitud variable optimitzada per a la representació del pla bàsic multilingüe (BMP).
UTF-32: codificació de 32 bits de longitud fixa, i la més senzilla de les tres.

Les formes de codificació es limiten a descriure la manera com es representen els punts de codi en format intel·ligible per la màquina. A partir de les 3 formes identificades es defineixen 7 esquemes de codificació.

Esquemes de codificació

Els esquemes de codificació tracten de la forma en què se serialitza la informació codificada.^[6] La seguretat en els intercanvis d'informació entre sistemes heterogenis requereix la implementació de sistemes que permetin determinar l'ordre correcte dels bits i bytes i garantir que la reconstrucció de la informació és correcta. Una diferència fonamental entre processadors és l'ordre de disposició dels bytes en paraules de 16 i 32 bits, el que s'anomena endianness. Els esquemes de codificació han de garantir que els extrems d'una comunicació saben com interpretar la informació rebuda. A partir de les 3 formes de codificació es defineixen 7 esquemes. Tot i que comparteixen noms, no s'ha de confondre esquemes i formes de codificació.

Esquema de codificació	Endianness	Admet BOM
UTF-8	No aplicable	Sí
UTF-16	Big-endian o Little-endian	Sí
UTF-16BE	Big-endian	No
UTF-16LE	Little-endian	No
UTF-32	Big-endian o Little-endian	Sí
UTF-32BE	Big-endian	No
UTF-32LE	Little-endian	No

Unicode defineix una marca especial, la marca d'ordre de bytes (BOM, Byte Order Mark), a l'inici d'un fitxer o una comunicació per fer explícita l'ordenació de bytes. Quan un protocol superior especifica l'ordre de bytes, la marca no és necessària i pot ometre donant lloc als esquemes de la llista anterior amb sufix BE o LE. En els esquemes UTF-16 i UTF-32, que admeten BOM, si aquest no s'especifica, s'assumeix que l'ordenació de bytes és big-endian.

La unitat de codificació en UTF-8 és el byte de manera que no necessita una indicació d'ordre de byte. L'estàndard ni requereix ni recomana la utilització de BOM, però ho admet com a marca que el text és Unicode o com a resultat de la conversió d'altres esquemes.

Caràcters UNICODE a Windows

Mètode que pot funcionar independentment de l'idioma configurat pel teclat:

Prémer la tecla Alt.
Prémer la tecla + (més) en el teclat numèric.
Teclejar el valor decimal equivalent al valor hexadecimal Unicode
Deixar anar la tecla Alt.

Exemples:

ALT+0171...« (obrir cometes llatines)

ALT+0181...» (tancar cometes llatines)

«..dissortada i manifestament..»

ALT+0150...– (guionet més llarg per als comentaris)

– tot just feia quatre dies–

ALT+0136...ˆ (circumflex)

ALT+0152...˜ (titlla)

ALT+0209...Ñ

ALT+0209...©

Vegeu també

Taula de codis

Referències

↑ «Summary Narrative» (en anglès). [Consulta: 1r juliol 2014].
↑ «The Unicode Consortium Members». Unicode, Inc. [Consulta: 1r juliol 2014].
↑ The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0 [Consulta: 1r juliol 2014].
↑ «Unicode». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
↑ «Supported Scripts» (en anglès). [Consulta: 1r juliol 2014].
↑ ^6,0 ^6,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0.

Enllaços externs

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Unicode

[1] «Summary Narrative» (en anglès). [Consulta: 1r juliol 2014].

[UNICODE-MEMBERS-2] «The Unicode Consortium Members». Unicode, Inc. [Consulta: 1r juliol 2014].

[UNICODE-ISO-3] The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0 [Consulta: 1r juliol 2014].

[4] «Unicode». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.

[5] «Supported Scripts» (en anglès). [Consulta: 1r juliol 2014].

[UNICODE-UTF-6] 6,0 ^6,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0.

[1]

[2]

[3]

[4]

[5]

[6]

Registres d'autoritat	GND (1) LCCN (1) NKC (1)
Bases d'informació	GEC (1) Britannica (1) SNL