Unicode

Unicode ist ein internationaler Standard mit dem Ziel, für jedes sinntragende Zeichen oder Element aller bekannten Schriftkulturen und Zeichensysteme einen digitalen Code festzulegen. Er will das Problem der verschiedenen inkompatiblen Kodierungen in den unterschiedlichen Ländern beseitigen. Herkömmliche Computer-Zeichensysteme umfassen einen Zeichenvorrat von 128 (7 Bit) wie der sehr bekannte (ASCII) bzw. 256 (8 Bit) Zeichen, wie z. B. ISO Latin-1, wovon nach Abzug der Steuerzeichen 96 bzw. 192–224 als Schrift- und Sonderzeichen darstellbar sind. Diese Zeichenkodierungen erlauben die gleichzeitige Darstellung von nur wenigen Sprachen im selben Text, wenn man sich nicht damit behilft, in einem Text verschiedene Schriften mit unterschiedlichen Zeichensätzen zu verwenden. Dies behinderte den internationalen Datenaustausch erheblich. In Unicode finden sämtliche Zeichen bestehender Zeichensätze nach Industriestandards und nationalen sowie ISO-Normen eine 1 : 1 Entsprechung. Daher enthält Unicode etliche mit Diakritika zusammengesetzte Zeichen, wie sie ansonsten nicht kodiert werden. Heute erledigen die meisten Webbrowser die Darstellung dieser Zeichensätze mit einer Unicode-kodierten Schrift in der Regel perfekt und vom Benutzer unbemerkt.

Die praktisch bedeutungsgleiche Bezeichnung des Unicode-Zeichensatzes, Universal Character Set (UCS), wird von ISO verwendet.

Die Codes von Unicode-Zeichen werden hexadezimal mit vorangestelltem U+ dargestellt. Hierbei kann x als Platzhalter verwendet werden, wenn zusammenhängende Bereiche gemeint sind, wie U+01Fx für den Codeberich U+01F0 - U+01FF

Die digitale Speicherung und -Übertragung von Unicode erfolgt in unterschiedlichen Formaten, siehe: Unicode Transformation Format (UTF), von denen UTF8 das gebräuchlichste ist, z.B. im Internet und in fast allen Betriebbystemen.
Eine Sonderstellung nimmt hier Punycode ein, womit Domainnamen mit nicht-ASCII Zeichen kodiert werden.
Das Format UTF-EBCDIC ist eine Unicode-Erweiterung, die auf dem proprietären EBCDIC-Format von IBM-Großrechnern aufbaut.

Kodierungskriterien

Gegenüber anderen Normen gibt es bei Unicode die Besonderheit, daß einmal kodierte Zeichen niemals wieder entfernt werden. Sollte sich die Normierung eines Zeichens nachträglich als Fehler erweisen, wird allenfalls von seiner Verwendung abgeraten. So wird die Langlebigkeit digitaler Daten gewährleistet. Daher bedarf die Aufnahme eines Zeichens in den Standard einer äußerst sorgfältigen Prüfung, die sich über Jahre hinziehen kann.

Im Unicode werden „abstrakte Zeichen“ (engl.: characters) kodiert, nicht Glyphen. Letzteres ist die graphische Darstellung abstrakter Zeichen, die extrem unterschiedlich ausfallen kann, beim lateinischen Alphabet beispielsweise in Fraktur, Antiqua, im Irischen und in Handschriften, siehe auch Glyphe. Für Glyphenvarianten, deren Normierung als sinnvoll und notwendig nachgewiesen wird, sind vorsorglich 256 „Variation Selectors“ vorgesehen.

Andererseits haben Schriften, die sowohl das lateinische als auch das griechische Alphabet enthalten, doppelt kodierte identische Glyphen für die folgenden mehrdeutigen Buchstaben: Α Β Ε Ζ Η Ι Κ Μ Ν Ο Ρ Τ Υ Χ. Von vielen Zeichen gibt es nicht nur durch die Schriftart bedingte Varianten sondern auch innerhalb einer Schriftart mehr oder minder notwendige sprach- schrift- oder kontextabhängige Glyphenvarianten und Ligaturen, zu deren Darstellung es sogenannter Smartfonttechniken wie OpenType, nicht aber einer Unicode-Kodierung bedarf.

Allerdings wird in Grenzfällen hart um die Entscheidung gerungen, ob es sich um Glyphenvarianten oder kodierungswürdige Zeichen handelt. Beispielsweise sind nicht wenige Fachleute der Meinung, das phönizische Alphabet könne man als Glyphenvarianten des hebräischen betrachten, da der gesamte Zeichenvorrat des Phönizischen dort eindeutige Entsprechungen hat, und auch die beiden Sprachen sehr eng verwandt sind. Die Auffassung, es handele sich um ein separates Zeichensystem, in der Unicode-Terminologie „script“, hat sich letztlich durchgesetzt. Anders verhält es sich bei CJK: Chinesisch, Japanisch (Kanji) und Koreanisch (Hanja). Hier haben sich im Laufe der Jahrhunderte die Formen vieler gleichbedeutender Schriftzeichen auseinanderentwickelt. Dennoch teilen sich die sprachspezifischen Glyphen die selben Codes im Unicode. In der Praxis werden hier wohl ausschließlich sprachspezifische Schriftarten verwendet, und die zeichnen sich schon durch außergewöhnliche Dateigrößen aus.

Vielen Unicode-Zeichen ist keine Glyphe zugeordnet. Auch sie gelten als „characters“. Neben den Steuerzeichen wie Zeilenvorschub (U+000A), Tabulator (U+0009) usw. sind allein 19 Zeichen explizit als Leerzeichen definiert, sogar solche ohne Breite, die u.a. als Worttrenner gebraucht werden für Sprachen wie Thai oder Tibetisch, die ohne Wortzwischenraum geschrieben werden. Für bidirektionales Schreiben, z.B. Arabisch - Lateinisch sind sieben Formatierungszeichen notwendig.

Beispiel: Combining Grapheme Joiner (CGJ)

Der CGJ ist ein unsichtbares Sonderzeichen, das normalerweise von den Anwendungsprogramen völlig ignoriert wird. Bislang kommen ihm drei Funktionen zu:

In manchen Sprachen gibt es Digraphen, die als eigenständige Buchstaben behandelt werden. Dies bei Bedarf zu kennzeichnen, wurde der „Combining Grapheme Joiner“ CGJ (U+034F) eingeführt.

In der Datenverarbeitung deutscher Bibliotheken kann die Unterscheidung von Umlaut und Trema (meist für fremdsprachige Namen) erforderlich sein. Hier empfiehlt Unicode, dem Trema (U+308) den CGJ voranzustellen. Der CGJ an dieser Stelle bleibt in anderen als den speziellen bibliographischen Anwendungen unberücksichtigt. Die ursprünglich von DIN vorgeschlagene nachträgliche gesonderte Kodierung der Umlaut-Punkte hätte zu einer kaum vertretbaren Inkonsistenz großer Datenmengen geführt.

Trägt ein Buchstabe mehrere Diakritika drüber oder drunter, werden diese normalerweise übereinandergestapelt. Für Ausnahmefälle, in denen zwei Diakritika nebeneinander stehen müssen, sieht Unicode vor, daß ein CGJ dazwischengestellt wird. Es obliegt dem Schriftentwickler, eine separate Glyphe für eine Zeichenfolge „Diakritikon1 CGJ Diakritikon2“ vorzusehen, auf die dann ein Zugriff über eine Schrifttechnik wie OpenType erfolgen kann.

Geschichte

Eine der frühsten Formen der Digitalisierung war der Morsecode. Der Morsecode wurde mit der Einführung von Fernschreibern aus den Telegrafennetzen verdrängt und durch Baudot-Code und Murray Code ersetzt. Vom Murray Code zum ASCII-Code war es dann nur noch ein kleiner Schritt. In den Anfängen des Computerzeitalters entwickelte sich der ASCII-Code zum Standard-Code für Schriftzeichen. Wie der Name („American Standard Code for Information Interchange“) schon sagt, diente der ASCII-Code ursprünglich zur Darstellung von Schriftzeichen der englischen Sprache. Um später auch Sonderzeichen anderer Sprachen darstellen zu können, wurde der Code erweitert. Allerdings bot der 8 Bit Code zu wenig Platz, um alle Sonderzeichen gleichzeitig unterzubringen, wodurch verschiedene Erweiterungen notwendig wurden. Auch ist es nicht möglich z. B. einen brauchbaren chinesischen Zeichensatz mit einem 8 Bit Code darzustellen. Das führte später zum Unicode, der für sämtliche Schriftzeichen aller Kulturen und Zeiten ausgelegt ist. Unicode ist heute der unverzichtbare Standard für dem internationalen elektronischen Informationsaustausch, wie im Word Wide Web das Wikipediaprojekt besonders eindrucksvoll demonstriert.

Anfangs glaubte man, mit einem Repertoire von 65.536 Zeichen (16 Bit) auskommen zu können. Bald aber stellte sich dies als unzureichend heraus. Nunmehr ist der Standard für 1.114.112 (= 2²⁰+2¹⁶) Zeichen ausgelegt. Dies deckt den Codebereich von U+00000 bis U+10FFFF ab. Bislang, in Unicode 4.0, sind 96.382 Codes individuellen Zeichen zugeordnet. Das entspricht in etwa erst 9% des Koderaumes.

Unicode Consortium

Das Unicode Consortium ist eine gemeinnützige Gesellschaft mit Sitz in Kalifornien, bei der eine Mitgliedschaft jeder natürlichen- und juristischen Person weltweit offensteht. Es publizierte 1990 eine erste Fassung des Standards und gibt seither regelmäßig neue Fassungen heraus, entsprechend dem jeweiligen Stand der geleisteten Standardisierungsarbeit. Derzeit werden pro Jahr etwa 1000 neue Zeichen hinzugefügt.

Das Konsortium arbeitet mit der Internationalen Organisation für Standardisierung zusammen, die den Standard ISO 10646 herausgibt. Unicode und ISO 10646 stimmen in der Zeichenkodierung vollkommen überein. Unicode aber enthält zusätzliche Angaben für die Softwareimplementierung (Darstellung, Sortierreihenfolgen, Schreibrichtung etc.) Genaugenommen ist Unicode ein Industriestandard und ISO 10646 eine internationale Norm.

Unicode ist strenggenommen eine Untermenge von ISO 10646: während ISO 10646 Zeichencodes mit bis zu 31 Bit zuläßt, sind bei Unicode maximal 21 Bit erlaubt. Zur Zeit ist das jedoch nur von theoretischem Interesse, da noch keine Zeichen definiert wurden, die über den 21-Bit-Bereich hinausgehen. Dies soll sich laut einem Prinzipien-Dokument der zuständigen ISO-Arbeitsgruppe WG 2 in absehbarer Zeit nicht ändern.

Versionen

1989 DP 10646 (Vorschlag für den Entwurf von ISO 10646, unabhängig von Unicode)
1990 DIS-1 10646 (Erster Entwurf für ISO 10646, unabhängig von Unicode)
1991 Unicode 1.0
1992 Unicode 1.0.1 (Modifikationen um eine Zusammenführung mit ISO 10646 zu ermöglichen)
1993 Unicode 1.1 (Unicode und ISO-Norm erstmals vereinigt: Codes identisch zu ISO 10646-1: 1993)
1996 Unicode 2.0 (Abgleich mit ISO 10646 Erweiterungen)
1998 Unicode 2.1 (unter anderem Einführung des Eurozeichens)
2000 Unicode 3.0 (Abgleich mit ISO 10646-1: 2000)
2001 Unicode 3.1 (Abgleich mit ISO 10646-2: 2001)
2002 Unicode 3.2
2003 Unicode 4.0 (Abgleich mit ISO 10646: 2003)
2004 Unicode 4.0.1
2005 Unicode 4.1 März 2005

Codebereiche

Unicode wird zunächst untergliedert in 16-Bit Codebereiche (Planes):

U+0000 – U+FFFF Basic Multilingual Plane (BMP, Plane 0)
Dies ist der ursprüngliche Codebereich in den Unicodeversionen < 2. Hier sind im wesentlichen die Schriftzeichen und Symbole lebender Sprachen sowie die Steuer und Formatierungszeichen untergebracht. Der Zugriff auf die folgenden Planes ist in vielen Anwendungsprogrammen noch nicht oder nur eingeschränkt möglich.
U+10000 – U+1FFFF Supplementary Multilingual Plane (SMP, Plane 1)
Ergänzungen zu Plane 0, überwiegend ausgestorbene Sprachen, musikalische Symbole, diverse Alphabete, zur Verwendung als mathematische Symbole u.A.
U+20000 – U+2FFFF Supplementary Ideographic Plane (SIP, Plane 2)
Erweiterungen für Chinesisch, Japanisch und Koreanisch, überwiegend Zeichen, die aktuell nicht mehr in Gebrauch sind.
U+E0000 – U+EFFFF Supplementary Special-purpose Plane (SSP, Plane 14)
Spezielles, bislang 240 Varianten-Selektoren und einige Tags
U+F0000 – U+FFFFF Supplementary Private Use Area-A (Plane 15) beliebig verwendbar
U+100000 – U+10FFFF Supplementary Private Use Area-B (Plane 16) beliebig verwendbar

Codeblöcke

Innerhalb der „Planes“ werden zusammengehörige Zeichen in Blöcken zusammengefaßt. Die Codetabellen (siehe Weblinks) sind in diese Blöcke unterteilt. Aus historischen Gründen hat sich allerdings ein gewisses Maß an Fragmentierung eingestellt.
Hier als Beispiel die wichtigsten Codeblöcke, die für lateinbasiertes Schreiben gebraucht werden:

U+0000 - U+007F Controls and Basic Latin: die ersten 128 Zeichen, entsprechen dem ASCII-Zeichensatz
U+0080 - U+00FF Controls and Latin1 Supplement: Erweiterungen für Latein und Steuerzeichen
U+0100 - U+017F Europäische Sonderzeichen für die lateinische Schrift
U+0180 - U+024F Weitere lateinische Sonderzeichen
U+0250 - U+02AF IPA-Ergänzungen
U+02B0 - U+02FF Modifizierende Buchstaben
U+0300 - U+036F Kombinierende diakritische Zeichen
U+1D00 - U+1D7F Phonetische Erweiteungen
U+1D80 – U+1DBF Ergänzungen zu Phonetische Erweiteungen
U+1DC0 – U+1DFF Ergänzungen zu Kombinierende diakritische Zeichen
U+1E00 – U+1EFF Zusätzliche lateinische Ergänzungen
U+2000 – U+206F Interpunktion, Leer- und Formatierungszeichen
U+2070 – U+209F Hoch- und Tiefgestellte
U+20A0 – U+20CF Währungssymbole
U+2100 – U+214F Buchstabenähnliche Symbole
U+2150 – U+218F Number Forms (gemeine Brüche, römische Ziffern ...)
U+2800 - U+28FF Braille (Blindenschrift)
U+2C60 – U+2CFF Lateinische Erweiterungen C (bislang ohne genormte Zeichen)

Anwendung der Tabellen

Will man ein Unicode-Zeichen (zum Beispiel „⊕“) in HTML oder XML verwenden, sucht man es zunächst aus der entsprechenden Tabelle (hier: Mathematische Symbole). Dort ist seine Zeichennummer hexadezimal angegeben. Mit dieser Zeichennummer erstellt man dann eine Zeichenentität durch Voranstellen von „&#x“ und Anfügen „;“, eben „⊕“, das ergibt dann das gewünschte Zeichen „⊕“. Die Zeichennummer kann in der Zeichenentität auch dezimal, dann ohne führendes „x“, angegeben werden, zum Beispiel „⊕“ für das gleiche Zeichen. Die Text Encoding Initiative TEI hat Empfehlungen erarbeitet, Unicode in XML-Dateien in leichter verständlicher Form einzugeben. Hier handelt es sich um einen Satz benannter Zeichen (engl.: named entites), der in das Stylesheet integriert wird. Allgemein übliche benannte Zeichen sind z.B. die Umlaute wie „Ä“ statt „Ä" für Ä.

Im Vi Improved kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale oder als Unicode, zum Beispiel UTF-8, erkannte Datei) eingeben, indem man Strg+V,U und dann die hexadezimale Zeichennummer drückt, also zum Beispiel Strg+V,U,2,0,A,C für das Euro-Zeichen.

Im Emacs kann man Unicode-Zeichen eingeben, indem man ALT-c insert-ucs-character und dann die dezimale Zeichennummer eingibt, also 8364 für das Zeichen €.

Unter Windows (ab Windows 2000) kann in vielen Programmen der Code hexadezimal eingegeben werden. Mit nachfolgendem Alt-x wird das Zeichen erzeugt. Diese Tastenkombination kann unter Windows XP auch benutzt werden, den Code des vor dem Cursor stehenden Zeichens anzuzeigen.

Ob das entsprechende Unicode-Zeichen auch tatsächlich am Bildschirm erscheint, hängt davon ab, ob die verwendete Schriftart eine Glyphe für das gewünschte Zeichen (also eine Grafik für die gewünschte Zeichennummer) enthält. Unter Windows wird, falls die verwendete Schrift ein Zeichen nicht enthält, nach Möglichkeit ein Zeichen aus einer anderen Schrift eingefügt. In der Typographie gilt so etwas als Fehler namens Zwiebelfisch.

Schriftarten

Mittlerweile hat der Zeichensatz von Unicode/ISO einen Umfang angenommen, der sich nicht mehr vollständig in existierenden Schrift-Dateiformaten unterbringen läßt. In Postscript-CFF-, TrueType- und OpenType-Schriften kann man maximal 65.536 Zeichen unterbringen. So versteht es sich von selbst, daß Unicode/ISO-Konformität einer Schrift nicht bedeutet, daß der komplette Zeichensatz enthalten sein muß, sondern lediglich, daß die enthaltene Zeichenauswahl normgerecht kodiert ist. Normalerweise wird eine dem Verwendungszweck oder Verbreitungsgebiet angemessene Auswahl getroffen. Die derzeit umfangreichste Schrift – in zwei Dateien aufgeteilt – ist Code 2000/Code 2001 von James Kass. Eine Übersicht über viele kostenlose und kommerzielle, umfangreiche und spezialisierte Unicode-Schriften bietet Allan Wood.

Weblinks

Unicode Consortium (englisch)
u.A. Linkliste zu allen Kapiteln des offiziellen Unicode-Buchs (PDFs), zu dem auch die Codetabellen gehören (engl.).
Das Unicode-System - Beschreibung im HTML-Kompendium SELFHTML
Alan Woods Unicode-Materialsammlung
The Letter Database
Junius-Unicode, umfangreicher Font (1434 Zeichen) für Windows, Mac und Linux (englisch)
Gentium, eine weitere kostenlose sehr umfangreiche Schrift von Victor Gaultney, ein SIL-Projekt

Standards:

RFC 2152 (UTF-7, A Mail-Safe Transformation Format of Unicode) Ist nicht mehr in Gebrauch.
RFC 3629 (UTF-8, a transformation format of ISO 10646)
RFC 3492 - Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA)
Definition von UTF-EBCDIC

Konverter:

Unicode Characters to HTML Entities Converter -- http://pioneer.stereo.lu/converter.html -- konvertiert Unicode-Zeichen in dezimale und hexadizmale HTML-Entitäten (von Shaun Moss, adaptiert von „ASCII to HEX to Unicode Converter“ von Mike Golding)

Konverter für Unicode-Zeichen in dezimale HTML/XML-Zeichenreferenzen; auch Download zur lokalen Verwendung

Tools:

Win2k/XP-Tastaturlayouts auf der Grundlage der deutschen Standardtastatur zur direkten Eingabe lateinischer, kyrillischer und phonetischer (IPA) Unicode-Zeichen

Literatur

Joan Aliprand (Hrsgr.), Julie Allen (Hrsgr.), Joe Becker (Hrsgr.), The Unicode Standard Version 4.0, Addison Wesley 2003, ISBN 0321185781

minnan:Thong-iōng-bé