Aller au contenu

Java Speech API

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 2 avril 2006 à 23:22 et modifiée en dernier par Anaunix (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)

Plan de l'exposé Java Speech Démonstration Présentation

SDK pour Java Speech

La synthèse de la parole Le synthétiseur de la parole Programme de synthèse de la parole JSML Programmation avec JSML Démonstration JSML

La reconnaissance de la parole JSGF Programme traitant la reconnaissance de la parole

Bibliographie


Présentation de Java Speech Java Speech API (JSAPI) est un ensemble de classes pour traiter la parole. Cette technologie peut être utilisée dans les interfaces humain-machine pour :

les dictées vers l'ordinateur, la reconnaissance et le traitement de la parole la synthèse de la parole JSAPI est développé par SUN et Apple, AT&T, Dragon Systems, IBM, Novell, Philips, Texas. La documentation originelle se trouve à : http://java.sun.com/products/java-media/speech/index.html


Java Speech n'est utilisable que dans les applications Java car : "Applets are not able to secretly listen to conversations in your office. Until a complete security policy for speech is designed, access to JSAPI recognizers and synthesizers from applets will cause a SecurityException".


Conclusion Java Speech est la technologie nécessaire pour les marchés comme : l'enseignement : cours en ligne, ... les télécommunications : conférences en ligne, téléphonie, ... les interfaces utilisant la parole, ... ...


La synthèse de la parole Elle consiste à convertir du texte écrit en phrases parlées. synthèse de la parole = Text to Speech (TTS) convertion

Il faut donc : 1) Analyser le texte d'entrée en paragraphes, phrases, début et fin de phrase pour une meilleure intonation.

2) Repérer les constructions idiomatiques de la langue (abbréviation, lecture des dates, des sommes d'argent, des acronymes, ...) et savoir les différencier. Par exemple en anglais :

St. Mathews hospital is on Main St. -> "Saint Mathews hospital is on Main street"

Add $20 to account 55374. -> "Add twenty dollars to account five five, three seven four."

Come at 5:30 on 12/5/99. -> "Come at five thirty on December fifth nineteen ninety nine."

3) Convertir chaque mot en suite de phonèmes (unité sonore élémentaire d'un langage). L'anglais possède 45 phonèmes.

4) Traiter la prosodie i.e. le rythme, la "mélodie" de l'élocution, l'emphase sur certains mots des phrases, ...

5) La production sonore




Le synthétiseur de la parole C'est le moteur de synthèse de la parole. On peut, durant le déroulement d'un programme, lui changer certaines caractéristiques comme la prosodie à savoir :

le volume sonore du silence au volume maximum. la vitesse d'élocution la tessiture (hauteur moyenne et intervalle autour de cette moyenne) de la voix le style de voix (homme, femme, robot, agé, jeune, enrhumé, heureux, ...)