Unicode

Unicode, edozein testu edozein hizkuntzan informatikoki adierazteko helburua duen estandar industriala da.

Sistema berri honen zabalpena, existitzen diren beste kodifikazio sistemak ordezkatzeko egitasmo garrantzitsua da, beste kodifikazio sistema hauetako askok oso urriak dira, eta aurki daitezken hizkuntzetako karaktere asko ezin dituzte adierazi. Gaur egun proiektu internazional gehienetan erabiltzen den estandarra da, eta teknologia berri gehienak erabiltzen dute, hala nola LDAP, XML, Java eta sistema eragile modernoak.

ASCII karaktereen multzoan oinarrituta dago. 16 biteko eredu bat hartu zuen, hizkuntza guztien karaktereak kodetzen ahalbidetzen duena, kontrol-kodeak edo ihes-sekuentziak sartu behar izan gabe.

Kodetze moduak.

Unicoderen kodetze-puntuak zenbaki osoen bidez identifikatzen dira. Bere arkitekturaren arabera, ordenagailuak 8, 16 edo 32 biteko unitateak erabiltzen ditu zenbaki oso horiek adierazteko. Unicoderen kodetze moduek arautzen dituzte kodetze-puntuak nola bihurtzen dira ordenagailuak prozesatzeko moduko unitateak.

Unicodek hiru kodetze modu definitzen ditu UTF (Unicode Transformation Format: Unicoren transformazio formatua) izenaren pean.

UTF-8: 8 biteko, alegia byte bateko, kodetzea, luzera aldakorreko ikurrak dituena.
UTF-16: 16 biteko kodetzea, luzera aldakorreko ikurrak dituena eta oinarrizko plano eleanitzerako (BMPrako) optimizatua.
UTF-32: 32 biteko kodetzea, luzera finkoko ikurrak dituena.