Mont d’an endalc’had

Unicode

Eus Wikipedia

Ur standard stlenn eo Unicode. Savet eo bet gant Consortium Unicode, evit reiñ da bep arouezenn e ne vern peseurt reizhiad doare-skrivañ, un niver, un anv hag ur c'hodadur hepken, en un doare unvan, a ya en-dro war ne vern peseurt reizhiad urzhiataerezh pe meziant.

Pal

Unicode, embannet en 1991 evit ar wezh kentañ, a zo bet krouet evit kemer lec'h ar c'hodoù evel ISO-8859-1, ma oa meur a hini anezho evit meur a rumm yezh.

E gwirionez n'eo ket bet goloet an holl sistemoù skritur c'hoazh, abalamour da labourioù enklask ret n'hallont bezañ graet nemet gant arbennigourien, evid arouezennoù diboaot-kenañ pe sistemoù nebeut-anavezet (re ar yezhoù marv, lakaomp).

Memes-tra e kaver dija e-barzh Unicode an taol vras deus ar sistemoù implijet tro-dro ar bed.

Normoù ha versionoù

Da heul ar labour war Unicode ec'h-a an heni war an norm ISO/CEI 10646 hag en deus ar memes palioù. An ISO/CEI 10646, un norm internaçional embannet en galleg hag en saosneg, na zivis ket na reolenn komposiñ-karakterioù, nag o ferzh semantik.

Unicode en-em okupa deus ar c'h-casse, deus urzh an alfabet, ha deus penaos kombinañ sinoù-diforc'hañ ha karakterioù.

Ar c'harakterioù e-barzh ar versïon Unicode 3.0 a so identifïet memes-mod e-barzh an norm ISO/CEI 10646:2000.

Ar versïon Unicode 3.2 a glassa 95 221 a garakterioù, a simboloù pe a direktivoù.

Ar versïon aktuel a so an heni 4.0.1 deus meurzh 2004.

Problemoù a chom, (ha kudennoù marsen), ewid kodiñ ar c'h-karakterioù chineseg.

Limit an oktet

Pa ra an ASCII gant 7 bit, hag an doareoù ISO 8859 (evel an ISO 8859-1 pe latin-1) gant 8, e oa ezomm ewid Unicode ouzhpenn 8 bit. Ar limit a oa bet lakaet da 16 bit d'ar penn kentañ, med bremañ e soñj an dud e vo ezomm 20 pe martrese 21 bit.

UTF, Unicode Transformation Format

Ewid resonioù a beb sort e vez kenniget gant Unicode tri mod da godiñ ur c'harakter (ur simbol) : an UTF-8, an UTF-16 hag an UTF-32. Ar chifr goude « UTF » a zivis ped bit a so neçesser, d'an nebeutañ, ewid kodiñ ur c'harakter.

UTF-8

An UTF-8 an-heni vez implijet ar muioc'h ewid Internet. Gantañ e vez kodet karakterioù so gant 1 oktet (ar letrennoù ASCII), karakterioù all gant 2 (ar letrennoù gant sinoù-diforchañ), pe gant 3. Skañvoc'h eo ewid pezh sell deus an implij-memor (med torr-penn-oc'h ewid skriviñ algoritmoù). En ur mod iwe ema an UTF-8 kompatibl gant ar programmoù kozh.

Da skwer e vo kodet gant UTF-8 an é evel « Ã© », hag ar chadenn a bewar c'harakter Zokén vo « Zokén ».

UTF-16

An UTF-16 en em laka hanter-hent etre espern ar memor hag aested ar programmiñ. An darn vrasañ eus ar c'harakterioù Unicode bet divizet beteg bremañ (an implijetañ) a zo kodabl gant 16 bit. Setu e vez koded gantañ toud ar c'harakterioù gant 2 oktet, nemed un nebeud re. Java a ra gantañ.

UTF-32

Gantañ e vez kodet toud ar c'harakterioù war 4 oktet ingal.

Ar fontoù Unicode

Unicode ne ra ket med listañ karakterioù ha roiñ un niverenn da beb heni. Ne lar ket penaos tresañ anezhe war ar skramm pe war ar paper (ne zivis ket ou glifoù).

N'eus ket a v-bijeksion etre tresadur an arouezenn hag he niverenn, evel en ur font ASCII pe latin-1.

Da skouer ez eus daou vod da godiñ un é : dre niverenn an é (un glif prekomposet), pe dre niverenn an 'e' heuliet gant niverenn an tired boud hep chasse (ur c'homposadur). Ewid ar lagad e vez gwelloc'h implijañ glifoù prekomposet.

Un dra all, gant sistemoù skritur zo, evel an devânagarî pe an alfabet arab, e vez ur bern labour ewid komposiñ ligaturioù : ar graphem a cheñch e lec'h er ger, hervez ar grafemoù all tro-dro dehañ.

Setu emañ skoemp komz deus ur font Unicode. Kaoud ur font gant tout an tresadennoù possubl n'eo ket a-walc'h : red eo kaout ur moteur gouest da zivizout peseurt hini implijañ. Doc'h an tu all, e oar ur font Unicode kalz a draoù n'int ket e-barzh Unicode anehe...

Liammoù diavaez

Patrom:Liamm PuB