Zum Inhalt springen

Deutsches Alphabet

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 5. Juli 2004 um 10:18 Uhr durch Crissov (Diskussion | Beiträge) (Buchstabenverteilung im deutschen Alphabet). Sie kann sich erheblich von der aktuellen Version unterscheiden.



Zur Schreibung des Deutschen Alphabets werden die 26 Buchstaben des lateinischen Alphabets zuzüglich der drei Umlaute (Ä, Ö, Ü) benutzt. Bei den Kleinbuchstaben kommt in Deutschland und Österreich, nicht aber in der Schweiz, das Eszett (ß) hinzu:

A Ä B C D E F G H I J K L M N O Ö P Q R S T U Ü V W X Y Z

a ä b c d e f g h i j k l m n o ö p q r s ß t u ü v w x y z

Die deutsche Sprache ist sehr vielseitig. Genau aus diesem Grund ist es wichtig ein breites Spektrum von Texten zu analysieren, wenn man allgemeingültige Aussagen zum deutschen Alphabet tätigen möchte. Möchte man die Häufigkeit der Buchstaben des Alphabets in der deutschen Sprache untersuchen, ist es weiterhin notwendig relativ lange Texte zu untersuchen, die nicht übermäßig mit Fremdwörtern oder Anglizismen durchsetzt sind, da dies die Analyse verfälschen würde.

Herkunft der Umlaute und des Eszett

Die Umlaute (ä, ö und ü) entstanden aus der Kombination des jeweiligen lateinischen Buchstaben (also a, o und u) mit einem deutschen e. Diese wurde zuerst hinter dem normalen Buchstaben geschrieben, ab dem 17. Jahrhundert aber zwecks Übersichtlichkeit klein darüber. Dieses kleine "e" sieht in handschriftlicher deutscher Schrift wie 2 senkrechte Striche aus, aus denen schließlich die zwei heute häufig verwendeten Punkte wurden. Einige Schriftarten verwenden auch immer noch die senkrechten Striche für die Umlaute. Die Umlaute werden auch in zahlreichen anderen Sprachen verwendet.

Das Eszett (ß) ist ursprünglich eine Ligatur aus dem langen ſ (s) und entweder dem runden s oder dem z in der Frakturschrift. Nachdem auch in Deutschland die Antiqua gebräuchlich wurde (Ende des 19. Jahrhunderts bis Mitte des 20. Jahrhunderts), wurde diese im Deutschen so weit verbreitete Ligatur in die Antiqua übernommen und hat sich dort zu einem eigenen Kleinbuchstaben entwickelt. In Versalschrift wird ersatzweise SS oder (seltener) SZ geschrieben. Das ß kommt ausschließlich in der deutschen Sprache vor. Auch das lange s wurde lange in der Antiqua weiterverwendet. Wegen der Ähnlichkeit zwischen einem deutschen Schreibschrift-h und einem lateinischen Schreibschrift-ſ ist es wiederholt vorgekommen, dass Eigennamen, die mit ſs endeten, heute mit hs enden.

In Wörterbüchern und ähnlichen Auflistungen werden die Umlaute Ä, Ö, Ü wie A, O und U behandelt, ß wie ss. Bei der Sortierung nach DIN, wie sie im Telefonbuch benutzt wird, werden die Umlaute hingegen wie Ae, Oe und Ue eingeordnet.

Häufigkeit der Buchstaben im Deutschen

Wie wohl in allen Sprachen kommen auch im Deutschen die einzelnen Buchstaben verschieden häufig vor. In verschiedenen Untersuchungen wurde die prozentuale Verteilung untersucht. Die Ergebnisse sind vor allem aus linguistischer und kryptologischer Sicht interessant.

Trotz kleinerer Abweichungen kommen alle Untersuchungen zu folgenden Ergebnissen:

  • Der häufigste Buchstabe ist das E, gefolgt vom N.
  • Der seltenste Buchstabe ist das Q.

Die 30 im Deutschen verwendeten Buchstaben lassen sich in drei Klassen unterteilen:

Sehr häufige Buchstaben (Häufigkeit: 4% und darüber)

A, D, E, H, I, N, R, S, T, U
Diese Buchstaben sind auch Bestandteil einiger häufiger grammatischer Endungen, vor allem der Verbformen. Fast alle Vokale (außer dem O) gehören ins obere Drittel.

Häufige Buchstaben (Häufigkeit: 1-4%):

B, C, F, G, K, L, M, O, W, Z
Diese Buchstaben kommen nicht ganz so häufig vor wie die ersten zehn, sind aber auch in jedem kürzeren Text anzutreffen. Das C kommt übrigens fast immer in den Verbindungen ch, ck oder sch vor, ganz selten alleine.

Weniger häufige und seltene Buchstaben (Häufigkeit: unter 1%):

J, P, Q, V, X, Y, Ä, Ö, Ü, ß
Hierbei können Q, X und Y als "Exoten" gelten; X und Y werden fast nur in Fremdwörtern verwendet (Ausnahmen: Bayern, Hexe). Das ß existiert nur als Kleinbuchstabe. In Kapitälchen-Schrift wird es als SS umschrieben.

Buchstabenverteilung im deutschen Alphabet

Datei:Alphabet haufigkeit.png
Die Buchstaben-Häufigkeitsverteilung eines längeren deutschen Textes.

Der häufigste Buchstabe in der deutschen Sprache ist das "E", gefolgt vom Leerzeichen. Die Verteilung der Satzzeichen erlaubt Rückschlüsse auf die mittlere Wortlänge (s.u.). Die Art der Texte (Lyrik, Prosa, Bedienungsanaleitungen etc.) hat keinen Einfluss auf die Buchstabenverteilung.

Für die Entschlüsselung von chiffrierten Texten ist es wichtig, Aussagen über Bigramme (Buchstaben-Paare) und Trigramme (Dreiergruppen von Buchstaben) zu treffen. Sie geben Hinweise auf den Klartext; so brach Friedrich Wilhelm Kasiski über die Verteilung von Digrammen die Vigenere-Verschlüsselung. Nicht nur die Häufigkeit von Buchstaben, auch die Verteilung von Buchstabengruppen ist typisch für die zugrunde liegende Sprache.

Datei:Alphabet bigramm.png
Verteilung der Bigramme in einem deutschen Text.

Im Deutschen sind die Digramme ER und EN am häufigsten vertreten und zwar am Wortende, wie die Trigramm-Analyse zeigt. Ohne Leerzeichen sind es die Trigramme SCH und DER, die die Verteilungsliste anführen.

Datei:Alphabet trigramm.png
Verteilung der Trigramme in einem deutschen Text. Die Tripel ER_ und EN_ sind am häufigsten ("_" steht für das Leerzeichen).

Die mittlere Wortlänge ist der Quotient aus der Gesamtzahl der Buchstaben und der Anzahl der Leerzeichen in einem Text.

Die mittlere Satzlänge berechnet sich aus der Gesamtzahl der Buchstaben geteilt durch die Anzahl der Satzzeichen und durch die mittlere Wortlänge.

Beispiel:

Ein Text hat 166636 Buchstaben und 26056 Leerzeichen. Damit ist die mittlere Wortlänge bei dieser Analyse 6,4 Buchstaben je Wort (= 166636 Buchstaben : 26056 Leerzeichen).
Die mittlere Satzlänge beträgt 5 Wörter pro Satz (= 166636 Buchstaben : (5225 Satzzeichen · 6,4)).

Vergleich: Deutsch / Englisch

Vergleich der Buchstabenverteilung der deutschen und englischen Sprache.

Die Buchstabenverteilung einer Sprache bezeichnet man als Fingerprint, also als Fingerabdruck einer Sprache. Ein Fingerabdruck ist etwas einmaliges und eindeutiges. Beim Vergleich der deutschen Sprache mit anderen Sprachen wird dies recht deutlich.

Im Englischen ist das E der meist genutzte Buchstabe. Das zweithäufigste Zeichen ist das Leerzeichen. Englische Wörter sind kürzer, wie das Beispiel eines Satzgefüges zeigt: The_tyre_of_the_car (4 Leerzeichen, 3 x E) und Autoreifen (kein Leerzeichen, 2 x E).

Ligaturen und andere Zeichen im Schriftsatz

Zusätzlich zu den normalen Buchstaben werden Ligaturen (Buchstabenverbindungen) und Sonderzeichen wie zum Beispiel das @ verwendet.