Unicode

Unicode, testu-karaktereak edozein hizkuntzatan informatikoki adierazteko balio duen kodifikazio-sistema standar erabiliena da. UNICODEko UTF-8 kodetze-modua erabiliena da gaur egunean. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (Latindar alfabetoa, grekoak, ziriliko, arabiarra, ...
Sistema berri honen zabalpena orokorra da, existitzen diren beste kodifikazio-sistemak ordezkatzen ari da, besteek ezin baitituzte adierazi hainbat hizkuntzatako karaktere asko. Gaur egun nazioarteko proiektu gehienetan erabiltzen den estandarra UTF-8 da; teknologia berri gehienek erabiltzen dute. Unicode Technical Committee (UTC) erakundeak kudeatzen du, non enpresa hauek parte hartzen duten: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google edo Yahoo!. Berkeley-ko Unibertsitateak ere parte hartzen du, eta zenbait akademikok eta profesionalek.[1] 1991z Unicode Consortium eta ISO/IEC erakundeak ados jartzen dira karakteren kode berdinak erabiltzeko.
Lehenago karaktere latinoentzat erabiltzen zen ASCII karaktere multzoan oinarrituta dago. , hizkuntza guztien karaktereak kodetzea ahalbidetzearren 16 biteko eredu bat hartu zuen hasieran, kontrol-kodeak edo ihes-sekuentziak sartu beharrik gabe.
-
Txinerako Yue karakterea (U+6708)
-
A letra latindarra (U+0041)
-
"Aum" (ॐ) (U+0950)
Kodetze moduak.
Unicode kodetze-balioak zenbaki osoen bidez identifikatzen dira. Bere arkitekturaren arabera, ordenagailuak 8, 16 edo 32 biteko unitateak erabiltzen ditu zenbaki oso horiek adierazteko. Unicoderen kodetze moduek arautzen dute alfabeto bakoitzeko karaktere bakoitzari zein balio dagokion.
Unicodek hiru kodetze-modu definitzen ditu UTF (Unicode Transformation Format: Unicoderen transformazio-formatua) izenaren pean.
- UTF-8: 8 biteko kodetzea, alegia byte batekoa, luzera aldakorreko ikurrak dituena.
- UTF-16: 16 biteko kodetzea, luzera aldakorreko ikurrak dituena eta oinarrizko plano eleanitzerako (BMPrako) optimizatua.
- UTF-32: 32 biteko kodetzea, luzera finkoko ikurrak dituena.
Ikus, gainera
Kanpo estekak
- (Ingelesez) Unicode Consortium