Mine sisu juurde

Unicode

Allikas: Vikipeedia
Redaktsioon seisuga 27. oktoober 2014, kell 23:42 kasutajalt Dexbot (arutelu | kaastöö) (Eemaldatud mall Link FA; keelelinkide äramärkimine nüüd Vikiandmetes)

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks. See hõlmab suuremaid kirjasüsteeme, mis on tänapäeval kasutuses, kuid samuti väljasurnud kirju. 2010. aasta alguses on viimane versioon standardist 5.2.0 [1]

Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda stiilis "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.

Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standartset viisi. Üldises kasutamises on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see tagasiühilduv ASCII-ga.

Standardiga paralleelne on ISO 10646 standard, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ning ei paku juhiseid ega soovitusi.

Viited

Välislingid