Mine sisu juurde

Unicode

Allikas: Vikipeedia
Redaktsioon seisuga 29. aprill 2024, kell 11:10 kasutajalt LaudKa (arutelu | kaastöö) (Lisasin lõigu Unicode'i konsortiumi kohta.)

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0[1], mis defineerib 149813[2] unikaalset märki.

Unicode'is viiakse iga märk vastavusse ühe unikaalse arvuga ehk antakse igale märgile oma "koodipunkt" (ingl code point).[3] Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis. Koodipunkt hoiustab endas infot märgi identiteedi, mitte aga selle välimuse kohta. Tarkvara saab kasutada seda infot, et näiteks vastava märgi mingi versioon ekraanile kuvada.

Koodipunkti kodeerimiseks arvutis on mitu standardset viisi. Unicode'i standard defineerib kolm kodeerimise viisi, UTF-8, UTF-16 ja UTF-32, mis lubavad infot märgi kohta edastada vastavalt 8, 16 ja 32 bitiste ühikutena.[3] Neist levinuim on UTF-8, mis on ASCII-ga tagasiühilduv.

Tänaseks on Unicode kõige laialdasemalt kasutatud kirjasüsteemide kodeerimise viis ning tarkvara arendamisel on sellega vastavus eeldatud.

Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ega paku juhiseid ega soovitusi.

Loomine ja arendus

Algusaastad

Unicode'i idee ei olnud midagi täiesti uut. Juba 1984. aastal esitatud ISO mitmebaidise märgikoodi standardi alus oli seatud 16-bitise universaalse koodi loomist silmas pidades. Teiseks Unicode'i eelkäijaks võiks nimetada Xeroxi 1980. aastal tutvustatud Star-tööjaama.[4]

Unicode'i projekti vundament laoti kaheksakümnendatel, mil toimusid esmased arutelud kolme tarkvarainseneri vahel - Joe Becker Xeroxi ettevõttest, Lee Collins, kes oli tol hetkel samuti Xeroxis, ja tollal Apple'i ettevõttes töötav Mark Davis. Vajadus universaalse kirjassüsteemide kodeerimise viisi järele oli ilmsiks tulnud Apple File Exchange'i arenduse valguses. 1988. aasta jooksul tehti algust idee elluviimisega, augustis avaldas Joe Becker oma ettepaneku universaalse kodeerimise süsteemi jaoks "Unicode 88", kasutades esimest korda väljenidt "Unicode", mis tema sõnul pidi peegeldama selle universaalset ja unikaalset olemust. Sügisel hakkas Collins looma Unicode märkide andmebaasi.[4]

Järgnevate aastate jooksul töörühm laienes ja töö standardi kallal jätkus. 1990. aasta augustis anti välja esimene mustand, mis ei hõlmanud endas koodide ja blokkide kirjeldusi, tegemist oli pigem kirjeldava ja tutvustava dokumendiga. Oktoobris välja antud mustand oli juba palju sisutihedam, kirjeldades mitmeid algseid ideid märkide indekseerimiseks ja hõlmates erinevaid tabeleid nende süsteemseks hoiustamiseks. 1990. aasta detsembris avaldatud kolmas väljaanne oli juba laialdaselt jagatud. Eesmärk oli saada avalikkuse tagasisidet. 1991. aasta oktoobris avaldati esimene Unicode'i standardit kirjeldav raamat, selle teine kõide 19992. aasta juunis.[5]

Unicode'i konsortium

Unicode'i konsortium loodi 1991. aasta jaanuaris USAs California osariigis.[6] See on mittetulundusühing, mille eesmärk on arendada, hooldada ja propageerida rahvusvahelisi tarkvara standardeid, nende hulgas ka Unicode'i. Konsortium teeb koostööd teiste rahvusvaheliste standardiseerimisega tegelevate organisatsioonidega nagu ISO ja W3C.[7]

Konsortiumi saavad kuuluda nii ettevõtted kui ka üksikisikud ning kuuluvusel on mitu tasandit. Suuremad hääleõiguslikud liikmed on näiteks Apple, Airbnb, Google, Meta ja Microsoft. Samuti on konsortiumis n-ö nõuandvaid liikeid, näiteks kuulub nende hulka Soome rahusraamatukogu, samuti erinevad ülikoolid ja riiklikud asutused.[8] Kõik konsortiumi liikmed on ära märgitud Unicode'i veebilehel.

Viited

  1. "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.
  2. "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.
  3. 3,0 3,1 "Technical Introduction". www.unicode.org. Vaadatud 23. aprillil 2024.
  4. 4,0 4,1 "Early Years of Unicode". www.unicode.org. Vaadatud 29. aprillil 2024.
  5. "History of Unicode Release and Publication Dates". www.unicode.org. Vaadatud 29. aprillil 2024.
  6. "History of Unicode". www.unicode.org. Vaadatud 23. aprillil 2024.
  7. "Unicode Consortium". www.unicode.org. Vaadatud 29. aprillil 2024.
  8. Diana. "Members". Unicode (Ameerika inglise). Vaadatud 29. aprillil 2024.

Välislingid