Unicode
![]() | See artikkel valmib koolitööna. Võimaluse korral lisa oma parandusettepanekud arutelulehele. See ei tähenda siiski, et teistel kaastöölistel on artikli muutmine keelatud. Malli võib eemaldada 1. mail 2024. |
Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0[1], mis defineerib 149813[2] unikaalset märki.
Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.
Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standardset viisi. Üldkasutatavana on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see ASCII-ga tagasiühilduv.
Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ega paku juhiseid ega soovitusi.
Viited
- ↑ "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.
- ↑ "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.