Zum Inhalt springen

Sonderzeichen

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 9. Oktober 2004 um 03:14 Uhr durch Head (Diskussion | Beiträge) (Head - Bot: Automatisierte Textersetzung (-\A=[= ]*Begriff.+?[= ]*=[\r\n]+ +)). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Mit Sonderzeichen assoziiert man alle Zeichen, die nicht im ASCII-Zeichensatz vorkommen. Während also beispielsweise Ziffern und lateinische Buchstaben Teil von ASCII sind, gelten deutsche Umlaute, das Copyright-Zeichen (©), kyrillische Buchstaben oder mathematische Symbole als Sonderzeichen. Die ersten 32 Zeichen des Zeichensatzes werden hingegen als Steuerzeichen betrachtet, von denen die Mehrzahl heutzutage kaum noch die ursprüngliche Bedeutung hat.

Historische Fehlentscheidungen sind für die ehemalige Beschränkung von Zeichen auf 8 Bit verantwortlich. Aufgrund vieler damit verbundener Probleme (so musste zur Einführung des Euro-Zeichens ein anderes Zeichen aus der 8-Bit-Erweiterung von ASCII herausgenommen werden (ISO 8859-15)).

Siehe auch: Schriftzeichen

Kodierungen

Auf modernen Systemen lassen sich auch Sonderzeichen eingeben und darstellen sowie auf andere Systeme übertragen. Dabei haben sich (aus der Not heraus) verschiedene Methoden entwickelt.

Unicode

Unicode gilt als die modernste und generischste Form der Umsetzung. Jedes Zeichen auf dieser Welt, ob es nun ein klingonisches Symbol oder ein chinesisches Schriftzeichen ist, bekommt einen Platz in den Unicode-Tabellen und wird auf einem Rechner als 1 oder mehr Bytes umfassende Speicherstelle abgebildet.

HTML

In HTML-Dokumenten werden Sonderzeichen durch so genannte Entitäten (engl.: entities) dargestellt. Sie beginnen mit einem Und-Zeichen (&) und enden mit einem Semikolon (;), die Zeichenfolge dazwischen bestimmt das Zeichen (amp für das Und-Zeichen selbst, nbsp für ein Leerzeichen, gt für das Größer-als-Zeichen). Zu beachten ist, dass für die korrekte Anzeige von HTML-Dokumenten im Browser die im Dokument angegebene (optional, falls nur ASCII-Zeichen und Entities verwendet werden), die vom Webserver angegebene und die im Browser eingestellte Kodierung übereinstimmen müssen. Nutzt man dafür Unicode, so entfällt die Notwendigkeit der Entities.

LaTeX

Populär zur Erstellung wissenschaftlicher Dokumente ist LaTeX, in denen die Sonderzeichen durch spezielle ASCII-Zeichenketten repräsentiert werden. Bei Umlauten schreibt man beispielsweise einfach vor den Basisvokal das doppelte Hochkomma ("). Auch für TeX und LaTeX gibt es mittlerweile UTF-8-Pakete.

Punycode

Um Umlaute und andere Sonderzeichen in Domainnamen darstellen zu können, hat man das Verfahren Punycode entwickelt, welches zusammen mit Nameprep den Standard für internationalisierte Domain-Namen (IDN) ergibt. Dabei werden Nicht-ASCII-Zeichen durch Bindestriche ersetzt und deren Repräsentation an das Ende des Wortes angehangen.

Siehe auch