Sprachsynthese

Sprachsynthese nennt man die Erzeugung von gesprochener Sprache durch einen Computer. Ziel ist es dabei, der menschlichen Stimme nahe zu kommen. Sprachsynthese wird auch synonym zu Vorleseautomat oder Text-to-Speech-System (TTS) verwendet. Dabei wird ein Text in ein Sprachsignal umgewandelt.

Grundsätzlich lassen sich zwei Ansätze zur Erzeugung von Sprachsignalen unterscheiden. Zum einen kann durch die sogenannte Signalmodellierung auf Sprachaufnahmen (Samples) zurückgegriffen werden. Zum anderen kann das Signal aber auch durch die sogenannte Physiologische Modellierung, vollständig im Rechner erzeugt werden. Während die ersten Systeme auf Formantsynthesen beruhten, basieren die zurzeit (Februar 2005) industriell eingesetzten Systeme vorwiegend auf Signalmodellierung. Ein besonderes Problem für die Sprachsynthese ist die Erzeugung einer natürlichen Sprachmelodie (Prosodie).

Geschichte

Schon lange vor der Erfindung der elektronischen Signalverarbeitung versuchten Wissenschaftler Maschinen zu kronstruieren, die menschliche Sprache erzeugten. Frühe Exemplare der sogenannten „Sprechenden Köpfe“ wurden von Gerbert von Aurillac (1003), Albertus Magnus (1198–1280), und Roger Bacon (1214–1294) entwickelt.

Der dänische Wissenschafler Christian Kratzenstein baute 1779 ein Modell des menschlichen Vokaltrakts, welches fünf lange Vokale (a, e, i, o and u) produzieren konnte. Wolfgang von Kempelen entwickelte kurz darauf eine Sprechmaschine, welche er 1791 in seiner Veröffentlichung „Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine“. Angetrieben wurde dieser Apparat durch einen Blasebalg, der Luft durch zwei elastische Stimmbänder blies. Diese liesen sich über einen Hebelmechanismus unterschiedlich spannen und so in der Tonhöhe verstellen. An den Stimmbändern schluss ein Ledertubus an, welcher durch eine Hand verformt werden konnte, und so die variable Geometrie und Resonanzverhalten des Vokaltrats nachbildete. Man konnte sich den Appart umschnallen und mit den Arm und beiden Händen bedienen. Von Kempelen schrieb:

„in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit im Spielen erlangen, besonders wenn man sich auf die lateinische, französische oder italienische Sprache verlegt, denn die deutsche ist [aufgrund der häufigen Konsonantenbündel] um vieles schwerer.“

Charles Wheatstone baute 1837 eine „Speaking Machine“, welche auf disem Entwurf beruht; 1857 baute M. Faber die „Euphonia“. Ein Nachbau findet sich im Deutschen Museum.

In den Bell Labs wurde in den 1930s der „Vocoder“, eine Tastaturgesteuerte elektronischer Sprachsynthesiezer entwicklet, über den gesagt wurde, dass er klar verständlich war. Homer Dudley verbesserte diese Maschine zum VODER, welcher in der Weltausstellung 1939 präsentiert wurde.

Die ersten computerbasierten Sprachsynthesesysteme wurden in den späten 1950ern entwickelt, das erste komplette Text-To-Speech-System 1968 fertiggestellt. Der Physiker John Larry Kelly, Jr entwickelte 1961 bei den Bell Labs eine Sprachsynthese mit einem IBM 704, und lies ihn das Lied „Daisy Bell“ singen. Der Regiseur Arthur C. Clarke war davon so beeindruckt, dass er es in den Film „2001: A Space Odyssey“ integrierte.

Während frühe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verständlich waren, erreichen sie etwa seit der Jahrtausendwende eine Qualität, bei der es mitunter schwierig ist, sie von menschlichen Sprechern zu unterscheiden.

References:

Sprachsynthese-Software

DeskBot
Festival
Festvox
FreeTTS
Hadifix
Realspeak von Nuance (ehem. ScanSoft)
SVOX
Loquendo TTS
MBROLA
ReadSpeaker: Webseiten vorlesen und Podcasting
VoiceReader
Webspeech
- fürs Deutsche: Txt2pho, Loquendo TTS, Virtual Voice, McLoud

Sprachsynthese-Hardware

Votrax
- SC-01A (analog formant)
- SC-02 / SSI-263 / "Artic 263"
General Instruments SP0256-AL2 (CTS256A-AL2)
National Semiconductor DT1050 Digitalker (Mozer)
Silicon Systems SSI 263 (analog formant)
Texas Instruments
- TMS5110A (LPC)
- TMS5200
Oki Semiconductor MSM5218RS (ADPCM)

Literatur

Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Vom Text zur gesprochenen Sprache. In: Lobin, Henning / Lemnitzer, Lothar (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Tübingen: Stauffenburg 2004, S. 295-325. ISBN 3860572873

Siehe auch

Weblinks

Ausführliche Liste von Sprachsynthesesystemen mit Beispielen
Txt2Pho - wandelt deutschsprachige Texte in Phonemrepräsentation
MBrola - Projekt zur Synthese von Sprache
FreeTTS - ein in Java implementiertes, quelloffenes TTS-System (Text-To-Speech)
Festvox - ein Open Source Projekt zur Sprachsynthese
Ein webbasierender TTS Service
MARY - ein Open Source TTS System für deutsch, englisch, tibetisch
Pediaphon - eine Sprachausgabe für deutschsprachige Wikipedia-Artikel