Vés al contingut

Usuari:Mcapdevila/Unicode

De la Viquipèdia, l'enciclopèdia lliure
Aquesta és una versió anterior d'aquesta pàgina, de data 07:16, 1 març 2012 amb l'última edició de Mcapdevila (discussió | contribucions). Pot tenir inexactituds o contingut no apropiat no present en la versió actual.

L' Unicode és un estàndard de codificació de caràcters dissenyat per facilitar el tractament informàtic, transmissió i visualització de textos de múltiples llenguatges i disciplines tècniques a part de textos clàssics de llengües mortes. El terme Unicode prové dels tres objectius perseguits: universalitat, uniformitat i unicitat. [1]

Unicode especifica un nom i identificador numèric únic per a cada caràcter o símbol, el code point o punt de codi , a més d'altres informacions necessàries per al seu ús correcte: direccionalitat, capitalització i altres atributs. Unicode tracta els caràcters alfabètics, ideogràfics i símbols de forma equivalent, el que significa que es poden barrejar en un mateix text sense la introducció de marques o caràcters de control. [2]

Aquest estàndard és mantingut per l' Unicode Technical Committee (UTC), integrat en el Unicode Consortium, del qual formen part amb diferent grau d'implicació empreses com: Microsoft, IBM, Oracle, SAP, Google, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual. [3] El Unicode Consortium manté estreta relació amb ISO/IEC, amb la qual manté un acord des de 1991 amb l'objectiu de mantenir la sincronització entre els seus estàndards que contenen els mateixos caràcters i punts de codi. [4]

L'establiment d'Unicode ha estat un ambiciós projecte per a reemplaçar els esquemes de codificació de caràcters existents, molts dels quals estan molt limitats en grandària i són incompatibles amb entorns plurilingües. Unicode s'ha tornat el més extens i complet esquema de codificació de caràcters, sent el dominant en la internacionalització i adaptació local del programari informàtic. L'estàndard ha estat implementat en un nombre considerable de tecnologies recents, que inclouen XML, Java i sistemes operatius moderns.

La descripció completa de l'estàndard i les taules de caràcters estan disponibles a la pàgina web oficial de Unicode [1]. La referència completa es publica, a més, en forma de llibre imprès cada vegada que s'allibera una nova versió principal. La versió digital d'aquest llibre està disponible de forma gratuïta. Les revisions i addicions es publiquen de forma independent.

Repertori de caràcters

Tipus de caràcters

Diferents versions del caràcter Angstrom, com a caràcter (versió preferida), com a caràcter amb signe diacrític i com a símbol en forma de.

Els blocs de l'espai de codis contenen punts amb la informació següent: [5]

Caràcters gràfics : Lletres, signes diacrítics, xifres, caràcters de puntuació, símbols i espais.

Caràcters de format : Caràcters invisibles que afecten el procés del text proper. Exemples: U+2028 salt de línia , U+2029 salt de paràgraf , U+00A0 no break space , etc.

Codis de control : 65 codis definits per compatibilitat amb ISO/IEC 2022. Són els caràcters entre en els rangs [U+0000, U+001F], U+007F i [U+0080 .. U+009F]. Interpretar-és responsabilitat de protocols superiors.

Caràcters privats : Reservats per a l'ús fora de l'estàndard per fabricants de programari .

Caràcters reservats : Codis reservats per al seu ús per Unicode. Són posicions no assignades.

Punts de codi subrogats : Unicode reserva els punts de codi de U+D800 a U+DFFF per al seu ús com codis subrogats en UTF-16, en la representació de caràcters suplementaris.

No-caràcters : Són codis reservats permanentment per a ús intern per Unicode. Els dos últims punts de cada pla U+FFFE i U+FFFF.

Caràcters descartats : Són caràcters que es retenen per compatibilitat amb versions anteriors, però s'ha d'evitar el seu ús.

Formes d'escriptura suportades

Unicode contempla gairebé qualsevol mena de forma d'escriptura utilitzada avui:

i altres. També suporta símbols (matemàtics, lògics, musicals...), ornamentació i sistemes d'escriptura de l'antiguitat, com ara l'ogham, les runes, el lineal A i B o els diacrítics del grec clàssic.

Vegeu també


Referències

  1. Resum històric. Unicode, Inc. 
  2. About the Unicode Standard. Unicode, Inc. 
  3. The Unicode Consortium Members. Unicode, Inc. 
  4. The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). (en anglès). Addisson-Wesley, octubre 2006. ISBN 0-321-48091-0. 
  5. The Unicode Consortium. «16. Special Àrees and Format Characters». A: Julie D. Allen, Joe Becker (et al.). (en anglès). Addisson-Wesley, octubre 2006. ISBN 0-321-48091-0. 

Enllaços externs

Plantilla:Enllaç AD