Unicode
![]() | See artikkel valmib koolitööna. Võimaluse korral lisa oma parandusettepanekud arutelulehele. See ei tähenda siiski, et teistel kaastöölistel on artikli muutmine keelatud. Malli võib eemaldada 1. mail 2024. |
Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks. See hõlmab suuremaid kirjasüsteeme.
2020. aasta märtsis ilmus standardist versioon 13.0.0.[1]
Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.
Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standardset viisi. Üldkasutatavana on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see ASCII-ga tagasiühilduv.
Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ega paku juhiseid ega soovitusi.