Mine sisu juurde

Unicode

Allikas: Vikipeedia
Redaktsioon seisuga 23. aprill 2024, kell 16:19 kasutajalt LaudKa (arutelu | kaastöö) (Viisin artikli kooskõlla hilisemate muudatustega standardis)

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0[1], mis defineerib 149813[2] unikaalset märki.

Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.

Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standardset viisi. Üldkasutatavana on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see ASCII-ga tagasiühilduv.

Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ega paku juhiseid ega soovitusi.

Viited

  1. "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.
  2. "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.

Välislingid