American Standard Code for Information Interchange

ASCII ist ein Akronym für "American Standard Code for Information Interchange" (dt.: Amerikanischer Standard-Code für den Informationsaustausch), der als ANSI-Standard X3.4 im Jahr 1968 eingeführt wurde.

Er beschreibt einen Zeichensatz, der auf dem lateinischen Alphabet basiert, wie er im modernen Englisch und von Computern und anderen Kommunikationseinrichtungen zur Textdarstellung verwendet wird. Er beschreibt als Code (wie auch EBCDIC von IBM) die Zuordnung von digital dargestellten Ganzzahlen (Integer) zu den in der normalen Schriftsprache geschriebenen Zeichen. Mit Hilfe des Codes können digitale Geräte codierte Informationsinhalte senden, empfangen und verarbeiten.

Geschichte

Die Buchstaben A, B und C als Sieben-Bit-Code
Schriftzeichen	Dezimal	Hexadezimal	Binärzeichen
A	65	41	(0)1000001
B	66	42	(0)1000010
C	67	43	(0)1000011
...	...	...	...

ASCII beschreibt ursprünglich einen Sieben-Bit-Code. Dieser Code verwendet binäre Ganzzahlen, die mit sieben binären Ziffern dargestellt werden (entspricht 0 bis 127), um Informationen darzustellen. Bereits damals haben Computer Acht-Bit-Zahlenworte verwendet - das achte Bit wurde oft für Fehlerkorrekturzwecke auf den Kommunikationsleitungen oder für andere Steuerungsaufgaben verwendet. Der ehemalige 7-Bit-Code wurde damit zu einem 8-Bit-Code erweitert.

Fortschritte in der Technik und die internationale Verbreitung erzeugten eine Reihe von Variationen und Erweiterungen des Codes, die nicht alle untereinander kompatibel sind und nicht für alle Systeme gleichermaßen verwendet werden können.

Zusammensetzung

ASCII-Zeichensatz inklusive nicht-druckbarer Zeichen
Code	-0	-1	-2	-3	-4	-5	-6	-7	-8	-9	-A	-B	-C	-D	-E	-F
0-	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
1-	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
2-	SP	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3-	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4-	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5-	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6-	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7-	p	q	r	s	t	u	v	w	x	y	z	{		}	~	DEL

Die ersten 32 Zeichencodes in ASCII sind reserviert für Steuerzeichen (control character) - Zeichen, die keine Schriftzeichen darstellen, sondern die zur Steuerung von solchen Geräten dienen (oder dienten), die ASCII verwenden (etwa Drucker). Steuerzeichen sind beispielsweise der Wagenrücklauf für den Zeilenumbruch oder Bell (die Glocke) - ihre Definition ist historisch begründet.

Code 0x20 (SP) ist das Leerzeichen (engl. space oder blank), welches in einem Text als Leer- und Trennzeichen zwischen Wörtern verwendet und auf der Tastatur durch die große breite Leertaste erzeugt wird. Die Codes 0x21 bis 0x7E sind alle druckbaren Zeichen, die sowohl Buchstaben, Ziffern und Satzzeichen (siehe Tabelle) enthalten. Code 0x7F (alle sieben Bits auf eins gesetzt) ist ein Sonderzeichen, welches auch als "Löschzeichen" bezeichnet wird (DEL). Der Code wurde früher wie ein Steuerzeichen verwendet, um auf Papierstreifen oder Lochmaschinen ein bereits gelochtes Zeichen nachträglich durch das Löschen aller Bits, d.h. durch Auslochen aller sieben Markierungen, löschen zu können.

Erweiterung

ASCII beinhaltet keine diakritischen Zeichen, die in vielen Sprachen auf der Basis des lateinischen Alphabets verwendet werden.

Der internationale Standard ISO 646 (1972) war der erste Versuch, dieses Problem anzugehen, was allerdings zu Kompatibilitätsproblemen geführt hat. Er ist immer noch ein Sieben-Bit-Code und weil keine anderen Codes verfügbar waren, wurden einige Codes in neuen Varianten verwendet.

So ist etwa der ASCII Code 93 für die rechte eckige Klammer (]) in der deutschen Zeichensatz-Variante ISO 646-DE für den Großbuchstaben U als Umlaut (Ü) und in der dänischen Varianten ISO 646-DK für den Großbuchstaben A mit oben angebrachtem Kreis (Å) vorgesehen.

Spätere Standards wie ISO 8859 und insbesondere auf Unicode (ISO 10646) basierende Zeichensätze, z.B. UTF-8, kennen diese Probleme nicht mehr. Sieben-Bit-Varianten müssen nicht mehr verwendet werden - dennoch kann Unicode auch in 7 Bit kodiert werden: UTF-7. Unicode verwendet bis zu 32-bit pro Zeichen, so dass alle bislang von Menschen verwendeten Schriftzeichen dargestellt werden können.

ASCII enthält nur wenige Zeichen, die allgemein verbindlich zur Formatierung oder Strukturierung von Text verwendet werden. Hierzu zählen insbesondere Linefeed, Carriage Return, horizontaler Tabulator, Form Feed und vertikaler Tabulator. Die Verwendung weiterer Zeichen zur Textformatierung ist bei verschiedenen Anwendungprogrammen zur Textverarbeitung unterschiedlich. Zur Formatierung von Text werden auch Markup-Codes verwendet. In der Kryptographie werden Codes zusätzlich verschlüsselt, damit Informationen nur von berechtigten Empfängern entschlüsselt und genutzt werden können.

Siehe auch

Kompatible Codes:

UTF-8,
ISO 8859,
MacRoman,
Windows- und DOS-Codepages,
KOI8-R und KOI8-U
und verschiedene nationale Standards.