VoiceXML

VoiceXML (VXML) – odmiana języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są intepretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najszczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (w:PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.

Na chwilę obecną funkcjonuje już tysiące komercyjnych aplikacji VoiceXML, obsługując kilka milionów połączeń dziennie. Aplikacje te obsługują szereg różnych usług, m. in. obsługę zamówień, zawiadomienia o wypadkach, budzenie, śledzenie lotów, głosowy dostęp do poczty elektronicznej, wybieranie głosowe czy audio gazety. Mają one szerokie zastosowanie w bardzo wielu gałęziach przemysłu.

VoiceXML posiada znaczniki informujące przeglądarkę głosową, jakie działania podjąć: dokonać syntezy dźwięku, automatycznego rozpoznawania mowy, obsłużyć dialog czy odegrać plik dźwiękowy. Poniżej przykład dokumentu VoiceXML:

<?xml version="1.0"?>
<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">
  <form>
    <block>
      <prompt>
        Witaj świecie!
      </prompt>
    </block>
  </form>
</vxml>

Zinterpretowany przez interpreter VoiceXML, pozwoli usłyszeć syntetyzowaną mową słowa "Witaj świecie".

Zazwyczaj stosowanym protokołem transportowym do pobierania stron VoiceXML jest HTTP. O ile prostsze aplikacje mogą używać statycznych stron VoiceXML, to jednak prawie wszystkie wykorzystują dynamiczne generowanie stron VoiceXML za pomocą serwera aplikacji takich jak Tomcat, Weblogic, serwer .NET albo WebSphere.

Jeszcze do niedawna firmy tworzące platformę VoiceXML implementowały standard w różny sposób, implementując swoje własnościowe rozszerzenia. Na szczęście nowy standard W3C VoiceXML 2.0 uściśla większość dotychczasowych różnic, a sami producenci przechodzą rygorystyczny test zgodności przygotowany przez Forum VoiceXML - grupę przemysłową promującą wykorzystanie standardu.

Dwa blisko spokrewnione standardy W3C wykorzystywane wraz z VoiceXML stanowią Język Znaczników Syntezy Mowy (SSML) i Specyfikacja Gramatyczna Rozpoznawania Mowy (SRGS). SSML stosowany jest do "ubarwiania" tekstowych dialogów, charakteryzując w jaki sposób wypowiadana ma być stosowna kwestia (np. który syntezator mowy wykorzystać lub kiedy należy mówić głośniej). SGRS podpowiada programowi rozpoznającemu mowę, jakich wzorców słów powinien oczekiwać.

Uzupełniającym standardem W3C jest Call Control eXtensible Markup Language (CCXML). Interpreter CCXML stosuje się na niektórych platformach VoiceXML do obsługi wstępnej kofiguracji połączenia pomiędzy dzwoniącym a przeglądarką głosową. CCXML jest użyteczny także w zadaniach nie związanych z VoiceXML.

Zobacz też

OpenVXI
x+v

Linki zewnętrzne