Mine sisu juurde

Unicode

Allikas: Vikipeedia
Redaktsioon seisuga 23. aprill 2024, kell 16:44 kasutajalt LaudKa (arutelu | kaastöö) (Lisasin sisukama kirjelduse unicode'i olemuse kohta ning rohkem informatsiooni kodeerimise kohta.)

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0[1], mis defineerib 149813[2] unikaalset märki.

Unicode'is viiakse iga märk vastavusse ühe unikaalse arvuga ehk antakse igale märgile oma "koodipunkt" (ingl code point).[3] Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis. Koodipunkt hoiustab endas infot märgi identiteedi, mitte aga selle välimuse kohta. Tarkvara saab kasutada seda infot, et näiteks vastava märgi mingi versioon ekraanile kuvada.

Koodipunkti kodeerimiseks arvutis on mitu standardset viisi. Unicode'i standard defineerib kolm kodeerimise viisi, UTF-8, UTF-16 ja UTF-32, mis lubavad infot märgi kohta edastada vastavalt 8, 16 ja 32 bitiste ühikutena.[3] Neist levinuim on UTF-8, mis on ASCII-ga tagasiühilduv.

Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ega paku juhiseid ega soovitusi.

Viited

  1. "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.
  2. "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.
  3. 3,0 3,1 "Technical Introduction". www.unicode.org. Vaadatud 23. aprillil 2024.

Välislingid