Deutsches Alphabet

Zur Schreibung der deutschen Hochsprache werden im heutigen standardisierten Gebrauch die 26 Buchstaben des lateinischen Alphabets zuzüglich der drei Umlaute (Ä, Ö, Ü) benutzt. Bei den Kleinbuchstaben kommt in Deutschland und Österreich, nicht aber in der Schweiz und in Liechtenstein, das Eszett (ß) (auch "scharfes S" genannt) hinzu:

A Ä B C D E F G H I J K L M N O Ö P Q R S T U Ü V W X Y Z

a ä b c d e f g h i j k l m n o ö p q r s ß t u ü v w x y z

Sowohl in der Schreibung von Mundarten wie in historischen Dokumenten werden und wurden darüber hinaus zahlreiche zusätzliche Buchstaben gebraucht. Dasselbe gilt für die Schreibung von Fremdwörtern.

Die deutsche Sprache ist sehr vielseitig. Aus diesem Grund ist es wichtig, ein breites Spektrum von Texten zu analysieren, wenn man allgemeingültige Aussagen zum deutschen Alphabet tätigen möchte. Möchte man die Häufigkeit der Buchstaben des Alphabets in der deutschen Sprache untersuchen, ist es weiterhin notwendig, relativ lange Texte zu untersuchen, die nicht übermäßig mit Fremdwörtern oder Anglizismen durchsetzt sind, da dies die Analyse verfälschen würde.

Herkunft der Umlautbuchstaben und des Eszett

Entstehung der Umlautpunkte am Beispiel des ä

Die Umlautbuchstaben (ä, ö und ü) entstanden aus der Kombination des jeweiligen lateinischen Buchstaben (also a, o und u) mit einem den Umlaut anzeigenden e. Diese Markierung wurde zunächst (bis zum 15. Jahrhundert) nur fakultativ verwendet - der Buchstabe u konnte sowohl u wie ü bedeuten. Ein e oder i konnte jedoch zur Unterscheidung seit etwa dem 13. Jahrhundert über den Buchstaben gesetzt werden, seltener auch hinter den umgelauteten Buchstaben. Dieses kleine „e“ sieht in handschriftlicher Schrift spätestens im 15. Jahrhundert wie zwei senkrechte Striche aus, aus denen schließlich die zwei heute häufig verwendeten Punkte wurden. Einige Schriftarten verwenden auch immer noch die senkrechten Striche für die Umlautbuchstaben. Die Umlautbuchstaben werden heute auch in zahlreichen anderen Sprachen verwendet.

Das Eszett (ß), das auch als scharfes s bekannt ist, ist ursprünglich eine Ligatur aus dem langen ſ (s) und entweder dem runden s oder dem z in den spätmittelalterlichen Bastarden und der neuzeitlichen Frakturschrift. Nachdem auch in deutschen Landen die Antiqua gebräuchlich wurde (Ende des 19. Jahrhunderts bis Mitte des 20. Jahrhunderts), wurde diese im Deutschen so weit verbreitete Ligatur in die Antiqua übernommen und hat sich dort zu einem eigenen Kleinbuchstaben entwickelt. In Versalschrift wird ersatzweise SS oder (seltener) SZ geschrieben. Das ß wird ausschließlich für deutschsprachige Texte verwendet. Auch das lange s wurde lange in der Antiqua weiterverwendet. Wegen der Ähnlichkeit zwischen einem deutschen Schreibschrift-h und einem lateinischen Schreibschrift-ſ ist es wiederholt vorgekommen, dass Eigennamen, die mit ſs endeten, heute mit hs enden.

Die Bezeichnung als scharf ist keinesfalls wissenschatlich phonetisch zu verstehen, sondern beschreibt einen subjektiven Klangeindruck. Als scharf empfinden deutsche Muttersprachler verschiedene Dinge, die von Stimmlosigkeit bis Kürze reichen. Da das Eszett, vor allem nach der letzten Rechtschreibreform, nur noch dann steht, wenn in der Aussprache ein Langvokal vorangeht, scheint die Bezeichnung scharfes s heute für manchen Muttersprachler an Aussagekraft zu verlieren.

In Wörterbüchern und ähnlichen Auflistungen werden die Umlaute Ä, Ö, Ü wie A, O und U behandelt, ß wie ss. Bei der im Telefonbuch üblichen Sortierung werden die Umlaute hingegen wie Ae, Oe und Ue eingeordnet. Beide Varianten sind in der DIN-Norm 5007:1991 beschrieben.

Häufigkeit der Buchstaben im Deutschen

Wie wohl in allen Sprachen kommen auch im Deutschen die einzelnen Buchstaben verschieden häufig vor. In verschiedenen Untersuchungen wurde die prozentuale Verteilung untersucht. Die Ergebnisse sind vor allem aus linguistischer und kryptologischer Sicht interessant.

Trotz kleinerer Abweichungen kommen alle Untersuchungen zu folgenden Ergebnissen:

Der häufigste Buchstabe ist das E, gefolgt vom N.
Der seltenste Buchstabe ist das Q.

Für genaue Ergebnisse für die einzelnen Buchstaben siehe den Artikel Buchstabenhäufigkeit oder z. B. eine Statistik wie bei [1].

Die 30 im Deutschen verwendeten Buchstaben lassen sich in drei Klassen unterteilen:

Sehr häufige Buchstaben (Häufigkeit: 4 % und darüber)

A, D, E, H, I, N, R, S, T, U
Diese Buchstaben sind auch Bestandteil einiger häufiger grammatischer Endungen, vor allem der Verbformen. Fast alle Vokale (außer dem O) gehören ins obere Drittel.

Häufige Buchstaben (Häufigkeit: 1–4 %):

B, C, F, G, K, L, M, O, W, Z
Diese Buchstaben kommen nicht ganz so häufig vor wie die ersten zehn, sind aber auch in jedem kürzeren Text anzutreffen. Das C kommt übrigens fast immer in den Verbindungen ch, ck oder sch vor, ganz selten alleine.

Weniger häufige und seltene Buchstaben (Häufigkeit: unter 1 %):

J, P, Q, V, X, Y, Ä, Ö, Ü, ß
Hierbei können Q, X und Y als „Exoten“ gelten; X und Y werden fast nur in Fremdwörtern verwendet (Ausnahmen: Bayern, Hexe). Das ß existiert nur als Kleinbuchstabe. In Kapitälchen-Schrift wird es ss geschrieben.

Buchstabenverteilung in deutschsprachigen Texten

Datei:Alphabet haufigkeit.png

Die Buchstaben-Häufigkeitsverteilung eines längeren deutschen Textes.

Der häufigste Buchstabe in der deutschen Sprache ist das „E“, gefolgt vom Leerzeichen. Die Verteilung der Satzzeichen erlaubt Rückschlüsse auf die mittlere Wortlänge (siehe unten). Die Art der Texte (Lyrik, Prosa, Bedienungsanleitungen etc.) hat keinen Einfluss auf die Buchstabenverteilung.

Für die Entschlüsselung von chiffrierten Texten ist es wichtig, Aussagen über Bigramme (auch Digramme, das sind Buchstaben-Paare) und Trigramme (Dreiergruppen von Buchstaben) zu treffen. Sie geben Hinweise auf den Klartext; so brach Friedrich Wilhelm Kasiski über die Verteilung von Bigrammen die Vigenère-Verschlüsselung. Nicht nur die Häufigkeit von Buchstaben, auch die Verteilung von Buchstabengruppen ist typisch für die zugrunde liegende Sprache.

Datei:Alphabet bigramm.png

Verteilung der Bigramme in einem deutschen Text.

Im Deutschen sind die Digramme ER und EN am häufigsten vertreten und zwar am Wortende, wie die Trigramm-Analyse zeigt. Ohne Leerzeichen sind es die Trigramme SCH und DER, die die Verteilungsliste anführen.

Datei:Alphabet trigramm.png

Verteilung der Trigramme in einem deutschen Text. Die Tripel ER_ und EN_ sind am häufigsten („_“ steht für das Leerzeichen).

Die mittlere Wortlänge ist der Quotient aus der Gesamtzahl der Buchstaben und der Anzahl der Leerzeichen in einem Text.

Die mittlere Satzlänge berechnet sich aus der Gesamtzahl der Buchstaben geteilt durch die Anzahl der Satzzeichen und durch die mittlere Wortlänge.

Beispiel:

Ein Text hat 166636 Buchstaben und 26056 Leerzeichen. Damit ist die mittlere Wortlänge bei dieser Analyse 6,4 Buchstaben je Wort (= 166636 Buchstaben : 26056 Leerzeichen).
Die mittlere Satzlänge beträgt 5 Wörter pro Satz (= 166636 Buchstaben : (5225 Satzzeichen · 6,4)).

Auch in der Linguistik ist die Buchstabenverteilung Untersuchungsgegenstand. In der Graphematik wird die typische Verteilung und Kombinierbarkeit von Buchstaben (genauer: Graphemen) einer Sprache innerhalb von Wörtern (und Silben) im Rahmen der Graphotaktik untersucht. Beispielsweise kann der Anfangsrand von üblichen deutschen Wörtern aus höchstens vier Randgraphemen (vier Konsonantengraphemen: Konsonantencluster) bestehen: z.B. schw in schwitzen. Weiteres Beispiel: Die Kerngraphemfolge (Vokalgraphemfolge) ie tritt wortinitial nicht auf.
Analog dazu wird in der Phonologie im Rahmen der Phonotaktik die typische Verteilung und Kombinierbarkeit von Phonemen (Lauten) einer Sprache untersucht. Aus solchen Beobachtungen und dem Vergleich beider Ebenen lassen sich z.B. orthographische Regularitäten ableiten: Das Phonem /i:/ (langes "i") kommt wortinitial vor, ie, das normalerweise zur Darstellung von /i:/ verwendet wird, kommt wortinitial nicht vor (stattdessen einfaches i oder, vor l, m, n, r, ih), vgl. Igel, aber Ziegel, ihm, aber Riemen. Daraus lässt sich schlussfolgern, dass es eine orthographische Beschränkung gibt, die ie zur Darstellung von /i:/ am Wortanfang ausschließt.

Vergleich: Deutsch / Englisch

Die Buchstabenverteilung einer Sprache bezeichnet man als fingerprint, also als Fingerabdruck einer Sprache. Ein Fingerabdruck ist etwas Einmaliges und Eindeutiges. Beim Vergleich der deutschen Sprache mit anderen Sprachen wird dies recht deutlich.

Im Englischen ist das E der meist genutzte Buchstabe. Das zweithäufigste Zeichen ist das Leerzeichen. Englische Wörter sind kürzer, wie das Beispiel eines Satzgefüges zeigt: The_tyre_of_the_car (4 Leerzeichen, 3 x E) und Der_Autoreifen (ein Leerzeichen, 3 x E).

Alphabetische Sortierung

Siehe auch den Hauptartikel Alphabetische Sortierung

Prinzipiell erfolgt die Sortierung entsprechend der Reihenfolge der Buchstaben im Alphabet. Dabei gibt es aber einige signifikante Abweichungen und Besonderheiten. Diese betreffen die Einordnung von Wörtern mit Umlauten und "ß" sowie Ziffern und Sonderzeichen.

Ligaturen und andere Zeichen im Schriftsatz

Zusätzlich zu den normalen Buchstaben werden Ligaturen (Buchstabenverbindungen) und Sonderzeichen wie zum Beispiel das @ verwendet.

Siehe auch: Alphabet, Schriftzeichen, Buchstaben-Häufigkeitsverteilung