Unicode
Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks. See hõlmab suuremaid kirjasüsteeme, mis on tänapäeval kasutuses, kuid samuti väljasurnud kirju. 2010. aasta alguses on viimane versioon standardist 5.2.0 [1]
Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda stiilis "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.
Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standartset viisi. Üldises kasutamises on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see tagasiühilduv ASCII-ga.
Standardiga paralleelne on ISO 10646 standard, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ning ei paku juhiseid ega soovitusi.
Viited
Välislingid