Sprachsynthese
Sprachsynthese nennt man die Erzeugung von gesprochener Sprache durch einen Computer. Ziel ist es dabei, der menschlichen Stimme nahe zu kommen. Sprachsynthese wird auch synonym zu Vorleseautomat oder Text-to-Speech-System (TTS) verwendet. Dabei wird ein Text in ein Sprachsignal umgewandelt.
Grundsätzlich lassen sich zwei Ansätze zur Erzeugung von Sprachsignalen unterscheiden. Zum einen kann durch die sogenannte Signalmodellierung auf Sprachaufnahmen (Samples) zurückgegriffen werden. Zum anderen kann das Signal aber auch durch die sogenannte Physiologische Modellierung, vollständig im Rechner erzeugt werden. Während die ersten Systeme auf Formantsynthesen beruhten, basieren die zurzeit (Februar 2005) industriell eingesetzten Systeme vorwiegend auf Signalmodellierung. Ein besonderes Problem für die Sprachsynthese ist die Erzeugung einer natürlichen Sprachmelodie (Prosodie).
Geschichte
Schon lange vor der Erfindung der elektronischen Signalverarbeitung versuchten Wissenschaftler Maschinen zu kronstruieren, die menschliche Sprache erzeugten. Frühe Exemplare der sogenannten „Sprechenden Köpfe“ wurden von Gerbert von Aurillac (1003), Albertus Magnus (1198–1280), und Roger Bacon (1214–1294) entwickelt.
Der dänische Wissenschafler Christian Kratzenstein baute 1779 ein Modell des menschlichen Vokaltrakts, welches fünf lange Vokale (a, e, i, o and u) produzieren konnte. Wolfgang von Kempelen entwickelte kurz darauf eine Sprechmaschine, welche er 1791 in seiner Veröffentlichung „Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine“. Angetrieben wurde dieser Apparat durch einen Blasebalg, der Luft durch zwei elastische Stimmbänder blies. Diese liesen sich über einen Hebelmechanismus unterschiedlich spannen und so in der Tonhöhe verstellen. An den Stimmbändern schluss ein Ledertubus an, welcher durch eine Hand verformt werden konnte, und so die variable Geometrie und Resonanzverhalten des Vokaltrats nachbildete. Man konnte sich den Appart umschnallen und mit den Arm und beiden Händen bedienen. Von Kempelen schrieb:
- „in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit im Spielen erlangen, besonders wenn man sich auf die lateinische, französische oder italienische Sprache verlegt, denn die deutsche ist [aufgrund der häufigen Konsonantenbündel] um vieles schwerer.“
Charles Wheatstone baute 1837 eine „Speaking Machine“, welche auf disem Entwurf beruht; 1857 baute M. Faber die „Euphonia“. Ein Nachbau findet sich im Deutschen Museum.
In den Bell Labs wurde in den 1930s der „Vocoder“, eine Tastaturgesteuerte elektronischer Sprachsynthesiezer entwicklet, über den gesagt wurde, dass er klar verständlich war. Homer Dudley verbesserte diese Maschine zum VODER, welcher in der Weltausstellung 1939 präsentiert wurde.
Die ersten computerbasierten Sprachsynthesesysteme wurden in den späten 1950ern entwickelt, das erste komplette Text-To-Speech-System 1968 fertiggestellt. Der Physiker John Larry Kelly, Jr entwickelte 1961 bei den Bell Labs eine Sprachsynthese mit einem IBM 704, und lies ihn das Lied „Daisy Bell“ singen. Der Regiseur Arthur C. Clarke war davon so beeindruckt, dass er es in den Film „2001: A Space Odyssey“ integrierte.
Während frühe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verständlich waren, erreichen sie etwa seit der Jahrtausendwende eine Qualität, bei der es mitunter schwierig ist, sie von menschlichen Sprechern zu unterscheiden.
References:
- Dennis Klatt's History of Speech Synthesis
- History and Development of Speech Synthesis (Helsinki University of Technology)
Sprachsynthese-Software
- DeskBot
- Festival
- Festvox
- FreeTTS
- Hadifix
- Realspeak von Nuance (ehem. ScanSoft)
- SVOX
- Loquendo TTS
- MBROLA
- ReadSpeaker: Webseiten vorlesen und Podcasting
- VoiceReader
- Webspeech
- fürs Deutsche: Txt2pho, Loquendo TTS, Virtual Voice, McLoud
Sprachsynthese-Hardware
- Votrax
- SC-01A (analog formant)
- SC-02 / SSI-263 / "Artic 263"
- General Instruments SP0256-AL2 (CTS256A-AL2)
- National Semiconductor DT1050 Digitalker (Mozer)
- Silicon Systems SSI 263 (analog formant)
- Texas Instruments
- TMS5110A (LPC)
- TMS5200
- Oki Semiconductor MSM5218RS (ADPCM)
Literatur
- Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Vom Text zur gesprochenen Sprache. In: Lobin, Henning / Lemnitzer, Lothar (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Tübingen: Stauffenburg 2004, S. 295-325. ISBN 3860572873
Siehe auch
- Spracherkennung
- Voice Portal
- SAPI
- Phonetik
- Voder
- Vocoder
- Formant
- Diphon
- Stimmverschlüsselung
- Prosodie
- Intonation (Phonetik)
- Baron Wolfgang von Kempelen
Weblinks
- Ausführliche Liste von Sprachsynthesesystemen mit Beispielen
- Txt2Pho - wandelt deutschsprachige Texte in Phonemrepräsentation
- MBrola - Projekt zur Synthese von Sprache
- FreeTTS - ein in Java implementiertes, quelloffenes TTS-System (Text-To-Speech)
- Festvox - ein Open Source Projekt zur Sprachsynthese
- Ein webbasierender TTS Service
- MARY - ein Open Source TTS System für deutsch, englisch, tibetisch
- Pediaphon - eine Sprachausgabe für deutschsprachige Wikipedia-Artikel