Unicode

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks. See hõlmab suuremaid kirjasüsteeme, mis on tänapäeval kasutuses, kuid samuti väljasurnud kirju. 2010. aasta alguses on viimane versioon standardist 5.2.0 ^[1]

Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda stiilis "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.

Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standartset viisi. Üldises kasutamises on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see tagasiühilduv ASCII-ga.

Standardiga paralleelne on ISO 10646 standard, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ning ei paku juhiseid ega soovitusi.

Välislingid

↑ Unicode 5.2.0

Mall:Link FA

[1] Unicode 5.2.0

[1]