Ugrás a tartalomhoz

Unicode

A Wikipédiából, a szabad enciklopédiából
A lap korábbi változatát látod, amilyen Gerakibot (vitalap | szerkesztései) 2013. február 1., 18:50-kor történt szerkesztése után volt. Ez a változat jelentősen eltérhet az aktuális változattól. (r2.7.1) (Bot: következő hozzáadása: bar:Unicode)

A Unicode (ejtsd: junikód) a különböző írásrendszerek egységes kódolását és használatát leíró nemzetközi szabvány. A Unicode nem csak a kódolással, hanem a karakterek osztályozásával, megjelenítésével és használatával is részletesen foglalkozik.

Történet

A régi, legfeljebb csak néhány tucat előre rögzített betűt tartalmazó karakterkódolásokat a hardverfeltételek és az igények változásával fokozatosan felváltotta az Unicode, ami már nem szab korlátot a különböző jelek együttes használatának.

Kódtábla

Az Unicode szabvány 16 biten tárolt síkokra osztja a szabvány legutóbbi változatában rögzített mintegy 100 ezer karaktert. Az első sík (BMP – Basic Multilingual Plane) mintegy 64 ezer karakterhelyén a legtöbb ma használatos jelet meg lehet találni.

Kódolás

A teljes, karakterenként 4 byte-ot foglaló UTF-32 kódolással szemben a tömörebb UTF-8 kódolás a legelterjedtebb. Az UTF-8 változó hosszúságú kódolással (1–6 byte) képezi le a Unicode karaktertáblát. 1 byte-on tárolt kódjai az ASCII-nak felelnek meg, így a latin betűs UTF-8 kódolású szövegek a régi ASCII környezetben is olvashatóak maradnak.

Az Unicode használata

Operációs rendszerek

A mai Linux, Mac OS X és Windows operációs rendszerek alapértelmezett Unicode támogatással rendelkeznek. A belső feldolgozás Unicode alapú, a tárolás is legtöbbször, a megjelenítés pedig az operációs rendszer és alkalmazásainak képességétől, például a betűkészlet lefedettségétől függ.

Beviteli módszerek

Mivel a billentyűkiosztásoknak nem lehet minden karakterhez egyszerű kombinációjuk, több operációs rendszer kínál alternatív beviteli lehetőségeket tetszőleges karakter elérésére.

Az ISO 14755 szabvány szabályozza az Unicode karakterek bevitelének módszereit. Az alap metódus szerint egy kezdőszekvencia után közvetlenül a hexadecimális kód megadása szükséges, majd ezt egy zárószekvencia követi. Ezenkívül specifikálták a képernyőről történő kiválasztást is, ahol a karakterek táblázatos formában szerepelnek a képernyőn, például egy karaktertábla programban.

Web

Az Unicode támogatása már a HTML 4-ben megjelent az UTF-8 karakterkódolással. A ma használatos böngészőknek a magyar írásjelek (idézőjel, gondolatjel) megjelenítése sem okoz már gondot.

Lásd még

Külső hivatkozások

  • Unicode.ORG – Az Unicode szabványosító testület és a különböző Unicode szabványok honlapja (angolul)
  • DecodeUnicode – Unicode wiki, mintegy 100 ezer betűképpel (németül) (angolul)
  • Unicode, UTF-8 (magyarul)