Speech Synthesis Markup Language (SSML per les seves sigles en àngles) es un mètode per a la sintetització de veu basat en XML. Aquesta especificació ha estat desenvolupada pèl Voice Browser Working Group, que va sol·licitar desenvolupar un estandard que permitis el accés a la web mitjançant la parla, per assistir la generació de veu sintètica a la Web i altres aplicacions.

INTRODUCCIÓ

SSML esta basat en les especificacions JSGF i/o JSML, propietat de Sun Microsystems. Es part de un ampli conjunt de especificacions de marques per a buscadors de veu desenvolupades a traves de processos oberts en el W3C. SSML ha sigut dissenyat per a oferir una millor sonoritat basada en el llenguatge de marques XML. El paper essencial dels llenguatges de marques, es donar als autors de contingut sintetitzable una manera estàndard de controlar aspectes de la veu, tals com la pronunciació, el volum, el to, la velocitat,etc. a traves de diferents plataformes amb capacitats per a la sintetització de veu. Una iniciativa relacionada amb SSML per a establir un sistema estàndard per a marcar l'entrada de text a sigut SABLE, que intentava integrar molt diferents marques basades en XML per a sintetitzadors de veu dins de un estàndard nou. La activitat feta amb SABLE s'ha usat com a punt de partida central per a definir el “Speech Synthesis Markup Requirements for Voice Markup Languages”. Des de llavors, el mateix SABLE no ha experimentat desenvolupaments complementaris.

La intenció del SSML es fer possible i millorar la qualitat del contingut sintetitzat. Diferents elements de marcat suposen diferents etapes en el procés de síntesis. El marcatge pot fer-se automàticament, mitjançant XSLT o fulles de estil CSS3 de un document XHTML, o manualment. El marcatge pot ser presentat com un document complet SSML o com part d'un fragment embegut en altre llenguatge, encara que les interaccions amb altres llenguatges no s'especifiquen com part del SSML mateix. La majoria dels desenvolupadors poden usar moltes de les etiquetes incloses en SSML, no obstant, algunes característiques avançades com fonemes y prosòdia (com per exemple per al disseny dels nivells de veu) requereixen un coneixement especialitzat.

APLICACIONS

El principal gran objectiu es aconseguir una implantació generalitzada de serveis i navegadors de veu en tots el àmbits per a facilitar la interacció entre computadors i éssers humans; i que aquests siguin desenvolupats de manera estandaritzada.

El Speech Synthesis Markup Language juntament amb altres especificacions com VoiceXML o SRGS (Speech Recognition Grammar Specification), també desenvolupades pèl Voice Browser Working Group, formen el que es denomina W3C Speech Interface Framework.

Aquest conjunt de especificacions cobreix les necessitats de diàleg mitjançant veu, reconeixement de veu, síntesis de veu, etc., dels cuals algunes aplicacions podrien ser:

Serveis per a empreses com pot ser la automatització de respostes per telèfon.
Suport tècnic.
Accés a informació pública com el servei meteorològic o l'estat del tràfic.
Informació de sortida i arribada de vols.

PROCÉS DE SÍNTESI DE LA PARLA

Per al procés de síntesi de la parla es necessari un processador que transformi el text en veu que suporti SSML. El processament de un document SSML ha de seguir una sèrie de passos abans de generar la veu, que son els següents:

Anàlisi gramatical

S'ha de fer un anàlisi gramatical del document XML per a extreure el contingut del arbre. La estructura, etiquetes i atributs obtinguts en aquest moment son necessaris per a cadascun dels processos següents.

Anàlisi de la estructura

La estructura del document afecta a la forma en que el document es llegit. Les etiquetes "< p >" i "< s >", definides explícitament per a SSML, indiquen estructures del document que afecten directament a la sortida de veu, això es denomina “Markup Support”. En els llocs del document on estes marques no son utilitzades es el processador de síntesi l'encarregat de inferir la estructura mitjançant un anàlisi automatitzat del text, utilitzant puntuació i altres elements específics del llenguatge, a això se li denomina “Non-Markup Behaviour”.

Normalització del text

Tots els llenguatges tenen construccions especials que requereixen una conversió especial de la forma escrita a la forma parlada (per exemple ½). Aquesta conversió es realitzada automàticament per el processador de síntesi. L'element “say-as” pot ser utilitzat en el document de entrada per a indicar explícitament la presencia de aquest tipus de construccions. D'aquesta manera es produeix la desambiguació de termes com ½ que pot tenir múltiples significats (un de dos, un mig, 1 de febrer, etc.). Per la resta del text que no estigui marcat amb “say-as” el processador de síntesi es l'encarregat de realitzar una conversió raonable. Degut a les ambigüitats es molt comú que es produeixin errors en la transformació.

Conversió del text en fonemes

Una vegada el processador de síntesi determina el conjunt de paraules que han de ser pronunciades, s'ha de deduir la pronunciació de les paraules. La pronunciació de les paraules ha de ser convenientment descrita com a seqüències de fonemes, que son unitats de so en un llenguatge que serveixen per a distingir una paraula d'una altre. Cada llenguatge te un conjunt específic de fonemes. Alguns llenguatges tenen entre 12 i 15 fonemes i altres mes de 100. Hi ha llenguatges, com l'anglès, en el que existeix ambigüitat en la conversió del text en veu (per exemple, “read” i “reed” es pronuncia igual), la associació no es un a un. En el cas del català aquesta conversió si es un a un, per el que aquest procés es mes senzill. SSML proporciona l'element “phoneme” per a que l'autor pugui controlar de forma explicita la pronunciació. En absència de l'element “phoneme” l'analitzador de síntesi aplicarà normes per a la pronunciació. Això normalment es fa buscant les paraules en un diccionari de pronunciació, que depen del llenguatge.

Anàlisi prosòdic

La prosòdia es el conjunt de trets de la parla que inclou el to, ritme, les pauses, la velocitat i l'enfasi. Aconseguir una prosòdia humana es important per aconseguir una veu natural y comprensible. Per aconseguir aquests trets explícitament SSML proporciona els elements “emphasis”, “break” i “prosody”. En absència de aquests elements el processador de síntesi estableix aquests trets de una forma bastant efectiva (però no perfecta).

Generació de la forma d'ona

Els fonemes i la informació prosòdica son utilitzats pel processador de síntesi per a produir la forma d'ona corresponent. SSML proporciona l'element “voice” per a sol·licitar una veu específica amb unes determinades qualitats (veu de dona, home, nen, etc.)

SSML proporciona una forma estàndard per especificar les propietats de la veu sintetitzada, com la pronunciació, volum, to, etc. Aquests valors son només indicacions per al processador de síntesi, la decisió final sobre els seus valors la te el processador en cas que no li semblin raonables.

Format del document

A continuació veurem el format de un document SSML:

Exemple.ssml
...
<?xml version="1.0"?> 
<!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN" 
"http://www.w3.org/TR/speech-synthesis/synthesis.dtd"> 
<speak version="1.0" 
xmlns="http://www.w3.org/2001/10/synthesis" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.w3.org/2001/10/synthesis 
http://www.w3.org/TR/speech-synthesis/synthesis.xsd" 
xml:lang="es"> 
<p> 
<s> Tienes 2 mensajes nuevos.</s> 
<s> El primero es de Diego, recibido a las <break/> 11:45am.</s> 
<s> El asunto es <prosody rate="-20%">futbol</prosody></s> 
</p> 
</speak>