Unicode

Unicode er et tegnsett som blir utviklet av en privat organisasjon kalt The Unicode Consortium. Organisasjonen ble stiftet i 1991 med det formål å skape et standard tegnsett for alle datamaskiner som støtter alle språk som er i praktisk bruk. Unicode-standarden inneholdt i versjon 3.1 95221 skrifttegn, og standarden har senere blitt utvidet.

Unicode kan representeres av flere encodinger der det brukes forskjellige metodologier for å representere tegnene. I UTF-32, brukes 32 bits per tegn for å representere hele dagens Unicode-tegnsett, mens i UTF-16, som brukes i Windows og Java, deles tegnene opp i porsjoner på 16 bits. UTF-8 er basert på de 8-biters ANSI-tegnsettene som brukes i en stor andel av verdens datasystemer, slik at det enkelt kan benyttes i en rekke operativsystemer og i Internet-kommunikasjon.

Fordelen med Unicode framfor eldre tegnsett blir åpenbar når en forsøker å kommunisere på flere språk. Mens ANSI-tegnsettene hindrer brukeren i å skrive på flere språk innenfor ett og samme dokument, støtter Unicode de fleste språk en innenfor rimelighetens grenser kan tenkes å bruke i et datasystem. Dermed er det for første gang mulig å enkelt representere flerspråklig data elektronisk.

Unicode har mottatt en del kritikk for sin implementasjon av kinesiske han-tegn (hanzi. Tegnene har varierende utseende på forskjellige asiatiske skriftspråk, mens Unicode kun inkluderer tegnene en gang. Samtidig inkluderer Unicode flere vestlige tegn som ser helt like ut på flere plasser, for å bevare kompatibilitet med eldre tegnsett. Eldre versjoner av Unicode manglet også en del kinesiske tegn, men dette har blitt delvis korrigert.