Aussprache der deutschen Sprache

Die Aussprache der deutschen Sprache bezeichnet die Phonetik und die Phonologie der deutschen Standardsprache. Die Aussprache der deutschen Sprache ist nicht überall dieselbe, denn es ist eine plurizentrische Sprache mit verschiedenen Varietäten. In den meisten Belangen stimmt die Aussprache dieser Varietäten jedoch miteinander überein.

Im weiteren Sinn kann darunter auch die Aussprache der deutschen Dialekte verstanden werden. Weil dies aber den Rahmen einer einzigen Seite sprengen würde, ist diese Sichtweise hier nicht dargestellt; siehe stattdessen deutsche Mundarten.

Geschichte

Anfänglich war die deutsche Standardsprache eine reine Schriftnorm. Wenn sie gesprochen wurde, dann entsprechend dem Lautstand der regionalen Mundarten.

Gegen Ende des 18. Jahrhunderts galt die sächsische Aussprache des Standarddeutschen als vorbildlich. Das lag am großen Einfluss der sächsischen Fürstentümer auf die deutsche Kultur.

Im 19. Jahrhundert wurde die norddeutsche Aussprache zur einflussreichsten. Verschiedene Faktoren spielten dabei eine Rolle. Einerseits war Preußen insbesondere seit der Gründung des deutschen Kaiserreichs zur dominierenden Macht geworden, andererseits waren in vielen Gegenden Norddeutschlands die Mundarten zugunsten der Standardsprache aufgegeben worden, so dass die Sprecher eine natürliche Gewandtheit im mündlichen Gebrauch der Standardsprache erreichten.

Kodifiziert wurde diese Aussprache der deutschen Sprache erstmals 1898 in der Deutschen Bühnensprache von Theodor Siebs. Moderne Aussprachewörterbücher stimmen im Großen und Ganzen mit der Siebs'schen Aussprache überein, wenn sie auch in verschiedenen Details von ihr abweichen (beispielsweise wird heute [r] nicht mehr als die einzige zulässige Aussprache des Phonems /r/ angesehen). Üblicherweise wird dieselbe Aussprache auch im Deutschunterricht für Ausländer gelehrt.

Variationen

Die deutsche Sprache ist plurizentrisch, das heißt, es gibt keine einheitliche Aussprache des Standarddeutschen für den gesamten deutschen Sprachraum. Vielmehr gibt es verschiedene Aussprachen des Standarddeutschen, die in den jeweiligen Regionen eine Vorbildwirkung ausüben.

Es ist nicht so, dass es nur eine dieser verschiedenen Aussprachen des Standarddeutschen die richtige wäre und alles andere dialektgefärbte Abweichungen. Diese Auffassung war früher verbreitet, als eine präskriptive Haltung üblich war, vorzuschreiben, wie die Leute sprechen sollten.

Es ist auch nicht so, dass in Radio und Fernsehen nur eine einzige Aussprache der deutschen Sprache gebraucht würde. Nachrichtensprecher aus Deutschland, Österreich und der Schweiz unterscheiden sich in ihrer Aussprache des Standarddeutschen. Der Unterschied liegt nur darin, dass es wegen der höheren Bevölkerungszahl in Deutschland mehr Sender gibt und dass diese eine größere Reichweite haben.

Das Ideal der Schreiblautung

Zu verschiedenen Zeiten ist gefordert worden, eine vorbildliche Aussprache solle sich direkt an der Schreibung orientieren. Ein Argument für die Vorbildlichkeit der norddeutschen Ausprache lautet beispielsweise, sie orientiere sich besonders stark an der Schreibung, weil die örtlichen norddeutschen Dialekte zu verschieden von der Standardsprache seien.

In Wirklichkeit gibt es jedoch Varietäten des Standarddeutschen, deren Aussprache näher an der Schreibung ist als die norddeutsche. Dies zeigt, dass sich das Ideal der Aussprache nicht an der Schreibung orientieren kann. Einige Vergleiche der norddeutschen gemäßigten Hochlautung nach Duden mit dem schweizerischen Standarddeutschen:

In der norddeutschen Aussprache werden doppelt geschriebene Konsonanten nicht gedehnt, in der schweizerischen hingegen schon.
Die norddeutschen Aussprache verwendet den Glottisschlag [], obwohl er nicht geschrieben wird; die schweizerische hingegen verwendet ihn nicht.
In der norddeutschen Aussprache entspricht dem Buchstaben r teils ein r-Laut, teils ein Vokal; in der schweizerischen entspricht ihm immer ein r-Laut.
In der norddeutschen Aussprache entspricht dem e am Wortende ein Schwa [], in der schweizerischen hingegen entspricht ihm auch am Wortende ein [].

Es gibt jedoch Hinweise darauf, daß in vergangenen Jahrhunderten die Aussprache des Hochdeutschen durch die Schweizer der Schreibung ferner stand als heute. So wurden z. B. Wörter wie "Geist", "Meister" ohne Zweifel früher - möglicherweise bis zur Einführung des Rundfunks - in der Schweiz meist "Geischt", "Meischter" ausgesprochen.

Aussprache

Wortbetonung

In deutschen Wörtern herrscht Stammbetonung vor, das heißt es wird die erste Silbe betont: "lehren, Lehrer, Leh-re-rin, lehrhaft, Leh-rer-kol-le-gi-um." Manche Präfixe und Suffixe allerdings ziehen die Betonung auf sich: "(Aus-spra-che, vor-le-sen, Bä-cke-rei)."

Bei zusammengesetzten Wörtern (Komposita) wird immer das erste Wort (Bestimmungswort) betont.

Die betonte Silbe wird im Vergleich zu den unbetonten stärker und damit lauter gesprochen (dynamischer Akzent). Der Hauptakzent liegt im Satz auf dem Rhema, meistens gegen Ende des Satzes.

Für Fremdwörter im Deutschen lassen sich keine Regeln angeben, da die Betonung häufig zusammen mit dem Wort übernommen wird.

Intonation

Deutsch kennt drei verschiedene Melodieverläufe, nämlich fallende, steigende und schwebende (progrediente) Intonation. Die fallende Intonation kennzeichnet den Satzschluss bei Aussagesätzen und Wortfragen wie zum Beispiel bei den Sätzen: Wann kommst du? — Ich komme jetzt. Die schwebende Intonation wird bei Pausen wie zum Beispiel zwischen Haupt- und Nebensatz verwendet. Die steigende Intonation ist typisch für Satzfragen (auch Entscheidungsfragen) wie zum Beispiel: Isst du gerne Schokolade? Auch Wortfragen können mit steigender Intonation gesprochen werden, wenn man ihnen einen freundlichen Ton verleihen will.

Eine Ausnahme bildet die schweizerische Varietät der deutschen Standardsprache, wo die steigende Intonation auch in Aussagesätzen anzutreffen ist.

Die Hebung oder Senkung der Stimme erfolgt ausgehend von der letzten betonten Silbe im Satz. Bei fallender Intonation wird diese Silbe etwas höher gesprochen als die Vorangehenden. Die nachfolgenden Silben fallen dann bis unter das Niveau des Satzes. Ist die letzte betonte Silbe ein einziges Wort, findet diese Melodiebewegung innerhalb dieses Wortes statt. Bei steigender Intonation wird die letzte betonte Silbe analog etwas tiefer gesprochen.

Rhythmus

Die deutsche Sprache ist gekennzeichnet durch einen so genannten "punktierten Sprechrhythmus".

Die betonte Silbe überragt im Deutschen die unbetonten Silben nicht nur in ihrer Schallfülle sondern auch hinsichtlich ihrer Länge: alle auf eine betonte Silbe folgenden unbetonten Silben werden fast stets kürzer gesprochen.

Vokalsystem

Das Vokalsystem des Deutschen ist mit rund 15 Vokal-Phonemen raltiv groß, die Spanische Sprache zum Beispiel kennt nur fünf. Diese Vokalphoneme werden durch die acht Vokalbuchstaben a, e, i, o, u, ä, ö und ü dargestellt, sowie durch y, welches jedoch auch als Konsonant verwendet wird.

Die Vokalphoneme der betonten Silben werden oft in Paare aus "geschlossenem" und "offenem" Vokal eingeteilt, die sich in ihrer Länge und Qualität voneinander unterscheiden: /aː/ und /a/, /eː/ und /ɛ/, /iː/ und /ɪ/, /oː/ und /ɔ/, /uː/ und /ʊ/, /ɛː/ und /ɛ/, /øː/ und /œ/ und /yː/ und /ʏ/.

Ritt /rɪt/ und riet /riːt/ unterscheiden sich beispielsweise auch in der Qualität voneinander, wie die Notation des Internationalen Phonetischen Alphabets zeigt. Die Mehrzahl der langen Vokalphoneme werden also geschlossener ausgesprochen und sind andere Phoneme als ihre kurzen verschrifteten Entsprechungen.

Ähnliche Vokalpaare betonter Silben wie im Deutschen hat es in allen germanischen Sprachen.

[ɛː] wie in Käse stellt in dem System der Vokalpaare betonter Silben eine Ausnahme dar, da er der einzige lange offene Vokal im Deutschen ist. In norddeutschen Varietäten der Standardsprache fällt dieser Laut jedoch mit [eː] zusammen, so dass die Vokale in Käse und in Lese gleich ausgesprochen werden. Daher ist der Status dieses Lauts als eigenständiges Phonem des Deutschen umstritten.

**Die deutschen Monophthonge**
Laut	Beschreibung
i(ː)	geschlossener vorderer ungerundeter Vokal wie in Miete (lang), vital (kurz).
ɪ	fast geschlossener fast vorderer ungerundeter Vokal wie in Mitte.
e(ː)	halbgeschlossener vorderer ungerundeter Vokal wie in stehlen (lang) bzw. Genom (kurz) – die Aussprache ist praktisch identisch mit der von /ɪ/
ɛ(ː)	halboffener vorderer ungerundeter Vokal wie in Käse (lang) bzw. Stelle, ächten (kurz).
y(ː)	geschlossener vorderer gerundeter Vokal wie in müßig (lang) bzw. Physik (kurz).
ʏ	fast geschlossener fast hinterer gerundeter Vokal wie in müssen.
ø(ː)	halbgeschlossener vorderer gerundeter Vokal wie in Höhle (lang) bzw. Ödem (kurz) – die Aussprache ist praktisch identisch mit der von /ʏ/
œ	halboffener vorderer gerundeter Vokal wie in Hölle.
ə	Schwa wie in bitte.
a(ː)	offener vorderer bis hinterer ungerundeter Vokal wie in kam (lang) bzw. Kamm (kurz).
u(ː)	geschlossener hinterer gerundeter Vokal wie in Mut (lang) bzw. Rubin (kurz).
ʊ	fast geschlossener fast hinterer gerundeter Vokal wie in Mutter.
o(ː)	halbgeschlossener hinterer gerundeter Vokal wie in Ofen (lang) bzw. Roman (kurz) – die Aussprache ist praktisch identisch mit der von /ʊ/
ɔ	halboffener hinterer gerundeter Vokal wie in offen

**Die deutschen Diphthonge**
Laut	Beschreibung
aʊ̯	Der schließende Diphthong setzt mit einem [a] wie in Schwamm ein und gleitet in Richtung auf das deutsche [ʊ], wobei sich die Lippen runden. Beispiel: Haus.
aɪ̯̯	Der schließende Diphthong setzt mit einem [a] wie in Schwamm ein und gleitet in Richtung auf das deutsche [ɪ]. Beispiel: Heim.
ɔʏ̯	Der schließende Diphthong setzt mit einem [ɔ] wie in Gott ein, und gleitet in Richtung [ʏ], wobei die leichte Rundung der Lippen zum Ende hin fast verlorengehen kann (aus [ʏ] wird fast [ɪ]). Beispiel: Eule.

Phonotaktik

Ein typisches Merkmal für den phonotaktischen Aufbau deutscher Wörter sind relativ komplexe Konsonantencluster in den Wortstämmen, konjugierten Formen und an der Wortfuge, die in der geschriebenen, graphotaktischen Form (wegen der verwendeten Di- und Trigraphen) oft besonders komplex wirken (z.B. kleckste, auftrumpfen, Angstschweiß, schreiben, ernst, schrumpfst, trittst, knutschst, hältst, Herbst, jetzt, Schrift, Schnitt).

Deutsche Aussprache im klassischen Gesang

Im Vergleich mit der Sprechtheaterbühne bedient sich die (klassische) Vokalmusik einer leicht variierten Aussprache.

Der besseren Verständlichkeit gesungener Sprache halber das Schwa oft als [] gesungen.
Das r wird in der klassischen Musik stets mit der Zungenspitze als [] ausgesprochen. Dies gilt auch für die Endung -er.
Der Glottisschlag im anlautenden Vokal wird in der Musik als unschön empfunden, er fällt weg.

Abgesehen davon werden in der klassischen Musik die Konsonanten meist viel forcierter ausgesprochen als im gesprochenen Deutsch. Auch dies dient der besseren Sprachverständlichkeit.

Verschriftung

Duden-Rechtschreibung

Vokale

Die deutsche Rechtschreibung bezeichnet die Quantität (Länge) und damit auch die Qualität der Vokale nur indirekt. Trotzdem kann die Quantität der Vokale kann meistens aus der Schreibung abgeleitet werden.

Länge kann durch doppelten Vokalbuchstaben ("aa", "ee", "oo", z. B. wie in "Tee"), Vokalbuchstabe plus h (z. B. "ah" wie in "Zahl", "ih" wie in "ihm") oder für [iː] außerdem durch die Buchstabenkombination "ie" oder "ieh" (wie in "Liebe" oder "ziehen") gekennzeichnet werden.

Ebenfalls lang sind Vokale ganz regelmäßig in offenen Silben wie das "e" in "Leben" oder das "a" in "raten".

Eine offene Silbe liegt dann vor, wenn im Wort ein einzelner Konsonantenbuchstabe plus Vokalbuchstabe folgt. Denn ein einzelner Konsonantenbuchstabe gehört in der Regel zur nächsten Silbe.

Kurz sind dagegen Vokale häufig in geschlossenen Silben, vor allem wenn im Wort weitere Silben folgen ("Kante", "Hüfte", "Wolke").

Von daher leitet sich die Regel ab, dass zwei gleiche Konsonantenbuchstaben (ebenso "ck" und "tz") nach einem einzelnen Vokal dessen Kürze signalisieren (zum Beispiel in "Sonne", "irren", "Ratte", "Masse"), da der doppelt dargestellte Konsonant zu beiden Silben gehört und damit die erste Silbe zu einer geschlossenen macht.

Umgekehrt deutet daher ein einzelner Konsonantenbuchstabe (inkl. ß, dessen Gebrauch gerade in dieser funktionalen Abgrenzung zu "ss" begründet wird) die Länge des vorangehenden Vokals an ("Krone", "hören", "raten", "Maße"), da er, wie gesagt, den Vokal in einer offenen Silbe stehen lässt. (Ausnahme: der Konsonantenbuchstabe x – vor "x" wird ein einzelner Vokalbuchstabe immer kurz gesprochen, z. B. "Hexe", "Axt".)

Ebenfalls lang sind Vokale, die zwar in geschlossenen Silben stehen, welche aber so erweitert werden können, dass eine offene Silbe entsteht. Bei "hörst" handelt es sich um eine geschlossene Silbe, "hö" in "hören" ist offen, deshalb wird auch das "ö" in "hörst" lang gesprochen.

Ebenfalls lang sind Vokale, die zwar in geschlossenen Silben stehen, welche nicht zu offenen Silben erweiterbar sind, welche aber erkennbar in Parallele zu solchen erweiterbaren Silben aufgebaut sind. "Obst" hat einen erkennbar parallelen Aufbau zu "lobst" (von "loben"), da von der Aussprache her statt b eigentlich der Buchstabe p zu erwarten wäre.

So lässt sich verallgemeinern: Lang sind Vokale vor den Konsonantenbuchstaben "b", "d", "g", "ß" (wenn "t", "s" oder "st" folgt), sowie vor "gd" und "ks". (Diese markieren die lange Aussprache, da sie anstelle von sonst zu erwartenden "p", "t", "k", "s"; "kt" und "x"/"chs" stehen.) Die Vorhersagbarkeit der Vokallänge gilt vor diesen Konsonantenbuchstaben also unabhängig von der Erweiterbarkeit der Silben. Vgl.: "Obst"/"lobst" (lang) vs. "optisch" (kurz), "Krebs"/"lebst" vs. "Klops", "beredt"/"lädt" vs. "nett", "Vogt"/"legt" vs. "Sekt", "spaßt" vs. "fast", "Magd"/"Jagd" vs. "Akt", "Keks"/"piksen" vs. "fix". In Eigennamen gilt dies auch für "w" (statt "f") und "sd" (statt "st"): "Drews", "Dresden".

Vor anderen Häufungen von Konsonantenbuchstaben sind die Vokale in der Regel kurz (da es sich hier oft um geschlossene Silben handelt). Allerdings gibt es einige, vor denen Vokale kurz oder lang vorkommen können ("tsch", "st", "chs", "nd", "rd" u. a.) oder in der Regel lang sind ("br", "kl", "tr" u. a.); insbesondere vor Di- und Trigrafen: vor "ch", "sch" meist kurz, vor "ph", "th" meist lang).

Einzelne Vokale in Wörtern aus geschlossenen Silben mit nur einem Konsonantenbuchstaben am Ende, die aber keine erweiterte Form mit langem Vokal haben (in der Regel Funktionswörter und Präfixe), wie zum Beispiel bei "mit", "ab", "um", "un-" (nach alter Rechtschreibung auch "daß", "miß-"), werden meistens kurz gesprochen (aber lang: "dem", "nun", vor "r": "der", "er", "wir", "für", "ur-"). Diese Ausspracheregel wird unter bestimmten Bedingungen auch auf Nomen und Adjektive angewandt: Bei (orthografisch) noch nicht vollständig integrierten Wörtern aus dem Englischen und Französischen ("Top", "fit", "Bus", "chic"), bei sog. Abkürzungswörtern ("TÜV", "MAZ"), bei einigen undurchschaubaren Wortbestandteilen ("Brombeere"). Generell gilt diese Regel für Wörter mit "x" (vgl. oben) und (wenn es denn ausnahmsweise vorkommt) für Wörter mit "j" am Ende ("Fax"; "Andrej", "ahoj"). Nach alter Rechtschreibung galt dies auch für einen Teil der Wörter mit "ß": "Nuß", "Boß", "iß!". Die kurze Aussprache des Vokals in solchen Wörtern, denen orthographisch der doppelt dargestellte Konsonant am Wortende fehlt, lässt sich zum Teil daraus erschließen, dass es verwandte Formen mit orthographisch markiertem kurzen Vokal gibt (kurzer Vokal bei "in" wg. "innen", "fit" wg. "fitter", "Bus" wg. "Busse", "Top" wg. "toppen", "Nuß" wg. "Nüsse"; dagegen lang: "Biotop" wg. "Biotope", "Fuß" wg. "Füße").

In Eigennamen (Familien- und geografische Namen) kann die Vokalkürze auch vor doppelt dargestellten Konsonanten nicht immer eindeutig bestimmt werden. Insbesondere "ck", "ff", "ss" und "tz", aber auch andere, kommen dort nicht ausschließlich nur nach kurzen Vokalen vor ("Bismarck", "Hauff", "Zeiss", "Hartz", "Kneipp", "Württemberg"). So kann auch ein einzelner Vokal vor diesen Doppelbuchstaben ausnahmsweise lang sein: "Buckow", "Mecklenburg", "Bonhoeffer", "Gross", "Lietzensee".

Da in der Schweiz anstelle des Eszetts "ss" in Gebrauch ist, signalisiert dort "ss" als einziger doppelter Konsonantenbuchstabe (außerhalb von Eigennamen) nicht die Kürze des vorangehenden Vokals (neben "gg", wenn man schweizerdeutsche Wörter miteinbezieht); Länge oder Kürze des Vokals ist also in diesem Fall nicht vorhersagbar (wie sonst auch vor den Di- und Trigrafen "ch", "sch" u. a.). Allerdings werden auch in Deutschland und in Österreich die (seit 1996 für im Singular stehende Wörter mit ss geltenden) Regeln für die korrekte Verteilung von "ß" und "ss", besonders in den Fernsehmedien, in Werbung ("Heisse Tasse", "Perl weiss") und Öffentlichkeitsarbeit, oft nicht konsequent angewandt.

IPA-Umschrift auf Wikipedia

Sofern Wörterbücher oder Enzyklopädien überhaupt Ausspracheangaben machen, verwenden sie meist eine möglichst einfache Umschrift auf phonologischer Basis. Dies gilt auch für Lautschriftangaben auf Wikipedia (siehe dort).

Aspiration und Stimmlosigkeit von // bleiben unbezeichnet, da redundant.
Der Glottisschlag [] bleibt unbezeichnet, da einerseits redundant und andererseits nicht in allen Varietäten der Standardsprache vorhanden.
Jeder //-Laut wird als [] notiert, da die Variation redundant ist und nicht in allen Varietäten der Standardsprache auftritt (dies gilt insbesondere auch für Wörter wie Wörter: []).
Das Schwa wird auch in Endungen geschrieben wie jedem [], großen [], Esel [], besser [], da die allfällige silbische Aussprache redundant ist und nicht in allen Varietäten der Standardsprache auftritt.
Unsilbigkeit von Vokalen wird nicht bezeichnet, da redundant, beispielsweise Haus [], national [].

Siehe auch

Literatur

Duden Bd. 6, Aussprachewörterbuch, ISBN 3-411-04064-5