Deutsches Alphabet

Zur Schreibung des Deutschen Alphabets werden die 26 Buchstaben des lateinischen Alphabets zuzüglich der drei Umlaute (Ä, Ö, Ü) benutzt. Bei den Kleinbuchstaben kommt in Deutschland und Österreich, nicht aber in der Schweiz, das Eszett (ß) hinzu:

A Ä B C D E F G H I J K L M N O Ö P Q R S T U Ü V W X Y Z

a ä b c d e f g h i j k l m n o ö p q r s ß t u ü v w x y z

Die deutsche Sprache ist sehr vielseitig. Genau aus diesem Grund ist es wichtig ein breites Spektrum von Texten zu analysieren, wenn man allgemeingültige Aussagen zum deutschen Alphabet tätigen möchte. Möchte man die Häufigkeit der Buchstaben des Alphabets in der deutschen Sprache untersuchen, ist es weiterhin notwendig relativ lange Texte zu untersuchen, die nicht übermäßig mit Fremdwörtern oder Anglizismen durchsetzt sind, da dies die Analyse verfälschen würde.

Herkunft der Umlaute und des Eszett

Die Umlaute (ä, ö und ü) entstanden aus der Kombination des jeweiligen lateinischen Buchstaben (also a, o und u) mit einem deutschen e. Diese wurde zuerst hinter dem normalen Buchstaben geschrieben, ab dem 17. Jahrhundert aber zwecks Übersichtlichkeit klein darüber. Dieses kleine "e" sieht in handschriftlicher deutscher Schrift wie 2 senkrechte Striche aus, aus denen schließlich die zwei heute häufig verwendeten Punkte wurden. Einige Schriftarten verwenden auch immer noch die senkrechten Striche für die Umlaute. Die Umlaute werden auch in zahlreichen anderen Sprachen verwendet.

Das Eszett (ß) ist ursprünglich eine Ligatur aus dem langen ſ (s) und entweder dem runden s oder dem z in der Frakturschrift. Nachdem auch in Deutschland die Antiqua gebräuchlich wurde (Ende des 19. Jahrhunderts bis Mitte des 20. Jahrhunderts), wurde diese im Deutschen so weit verbreitete Ligatur in die Antiqua übernommen und hat sich dort zu einem eigenen Kleinbuchstaben entwickelt. In Versalschrift wird ersatzweise SS oder (seltener) SZ geschrieben. Das ß kommt ausschließlich in der deutschen Sprache vor. Auch das lange s wurde lange in der Antiqua weiterverwendet. Wegen der Ähnlichkeit zwischen einem deutschen Schreibschrift-h und einem lateinischen Schreibschrift-ſ ist es wiederholt vorgekommen, dass Eigennamen, die mit ſs endeten, heute mit hs enden.

In Wörterbüchern und ähnlichen Auflistungen werden die Umlaute Ä, Ö, Ü wie A, O und U behandelt, ß wie ss. Bei der Sortierung nach DIN, wie sie im Telefonbuch benutzt wird, werden die Umlaute hingegen wie Ae, Oe und Ue eingeordnet.

Häufigkeit der Buchstaben im Deutschen

Wie wohl in allen Sprachen kommen auch im Deutschen die einzelnen Buchstaben verschieden häufig vor. In verschiedenen Untersuchungen wurde die prozentuale Verteilung untersucht. Die Ergebnisse sind vor allem aus linguistischer und kryptologischer Sicht interessant.

Trotz kleinerer Abweichungen kommen alle Untersuchungen zu folgenden Ergebnissen:

Der häufigste Buchstabe ist das E, gefolgt vom N.
Der seltenste Buchstabe ist das Q.

Die 30 im Deutschen verwendeten Buchstaben lassen sich in drei Klassen unterteilen:

Sehr häufige Buchstaben (Häufigkeit: 4% und darüber)

A, D, E, H, I, N, R, S, T, U
Diese Buchstaben sind auch Bestandteil einiger häufiger grammatischer Endungen, vor allem der Verbformen. Fast alle Vokale (außer dem O) gehören ins obere Drittel.

Häufige Buchstaben (Häufigkeit: 1-4%):

B, C, F, G, K, L, M, O, W, Z
Diese Buchstaben kommen nicht ganz so häufig vor wie die ersten zehn, sind aber auch in jedem kürzeren Text anzutreffen. Das C kommt übrigens fast immer in den Verbindungen ch, ck oder sch vor, ganz selten alleine.

Weniger häufige und seltene Buchstaben (Häufigkeit: unter 1%):

J, P, Q, V, X, Y, Ä, Ö, Ü, ß
Hierbei können Q, X und Y als "Exoten" gelten; X und Y werden fast nur in Fremdwörtern verwendet (Ausnahmen: Bayern, Hexe). Durch die Rechtschreibreform kommt das ß seit etwa 1996 seltener vor.

Grafische Darstellung der Buchstabenverteilung im deutschen Alphabet

Für die Analyse der Buchstabenverteilung, Bigrammenverteilung und Trigrammenverteilung benutzten wir alle Seiten der Wikipedia (de.wikipedia.net (Stand: 22-05-2004)). Diese sind zu finden unter: http://download.wikimedia.org/

Datei:Alphabet haufigkeit.png

Beschreibung

Der häufigste Buchstabe in der deutschen Sprache ist das "E", gefolgt vom Leerzeichen. Da es um das Alphabet der deutschen Sprache geht, wurde auf Zahlen bzw. Ziffern in dieser Darstellung verzichtet. Interessant allerdings ist die Verteilung der Satzzeichen in der deutschen Sprache. Diese Anzahl spielt für die Ermittlung der mittleren Satzlänge eine große Rolle (siehe mittlere Satz- und Wortlänge).Die Buchstabenverteilung der deutschen Sprache ist nahezu konstant. In unterschiedlichen Teilbereichen des Sprachgebrauchs (Lyrik, Prosa, Bedienungsanaleitungen etc.) gibt es nur sehr geringe Abweichungen vom oben aufgeführten allgemeingültigen Analyseergebnis bzw. Diagramm.

Grafische Darstellung der Bigrammenverteilung (Buchstabenpaar) und Trigrammenverteilung (Buchstabentribel) im deutschen Alphabet

Für die Entschlüsselung von chiffrierten Texten ist es wichtig, Aussagen über Bi- und Trigramme zu treffen. Sie geben Hinweise auf den Klartext ((hier vielleicht Referenz zu Vigenère; Die Methode von Kasiski beruht auf der Suche nach Buchstabengruppen)). Ähnlich wie die Buchstabenverteilung ist auch die Verteilung von Buchstabengruppen typisch für die zugrunde liegende Sprache.

Bigramme

Datei:Alphabet bigramm.png

Beschreibung

In der deutschen Sprache wird das Buchstabenpaar ER am häufigsten verwendet.

Trigramme

Datei:Alphabet trigramm.png

Beschreibung

Die Buchstabenkombination EN_ (_ steht für das Leerzeichen) wird in der deutschen Sprache am häufigsten verwendet.

Die mittlere Satz- und Wortlänge

Die mittlere Wortlänge und Satzlänge können relativ einfach berechnet werden. Die Wortlänge ist der Quotient aus der Gesamtzahl der Buchstaben und der Anzahl der Leerzeichen in einem Text.

Die Satzläge berechnet sich aus der Gesamtzahl der Buchstaben geteilt durch die Anzahl der Satzzeichen (Dieses Zwischenergebnis würde die mittlere Buchstabenanzahl in einem Satz berechnen.) und geteilt durch die mittlere Wortlänge (Dieses Ergebnis würde die mittlere Wortanzahl in einem Satz berechnen.).

Ein Beispiel

Unser deutscher Text zur Analyse beim Vergleich hat 166'636 Buchstaben und 26'056 Leerzeichen. Damit ist die mittlere Wortlänge bei dieser Analyse 6.4 Buchstaben je Wort ( 166'636 Buchstaben / 26'056 Leerzeichen = 6,39). Die mittlere Satzlänge beträgt 5 Wörter pro Satz , weil 166'636 Buchstaben / (5225 Satzzeichen * 6,39) = 5 ist.

Vergleich: Deutsch / Englisch

Datei:Alphabet haufigkeit.png

Beschreibung

Die Buchstabenverteilung einer Sprache bezeichnet man als Fingerprint, also als Fingerabdruck einer Sprache. Ein Fingerabdruck ist etwas einmaliges und eindeutiges. Beim Vergleich der deutschen Sprache mit anderen Sprachen wird dies recht deutlich.

Wir nahmen dafür die englische Sprache, da sie auch auf einem Laut-Alphabet beruht und nicht etwa auf einem Symbol- oder Silbenalphabet wie Japanischen und Chinesischen. Außerdem ist sie, durch ihre Stellung als Weltsprache, eine sehr bekannte und meist genutzte Sprache auf der ganzen Welt.

Im Englischen ist das E der meist genutzte Buchstabe, nach dem Leerzeichen. Vergleicht man die Anzahl des Buchstaben E im Verhältnis zum Leerzeichen mit dem Englischen so sieht man, dass im Deutschen mehr Wortgefüge als im Englischen gebraucht werden. z.B.: The_tyre_of_the_car (4 Leerzeichen, 3 x E) und Autoreifen (kein Leerzeichen, 2 x E)