Sprachdialogsystem

Benutzerinterface
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 7. Juli 2009 um 17:15 Uhr durch Daniel Wimpff (Diskussion | Beiträge) (Vorteile und Grenzen interaktiver Sprachdialogsysteme: Absatz Kriterien für den Einsatz von Sprachdialogsystemen angelegt.). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Mit einem Sprachdialogsystem (engl. Voice Portal), können Anrufer über das Telefon teil- oder vollautomatisierte natürlichsprachliche Dialoge führen.

Beispiel: Anrufer: „Wie ist das Tages-Hoch und der aktuelle Kurs der Aktie Siemens in Frankfurt?“. Antwort des Voice Portal: „Das Tages-Hoch von Siemens in Frankfurt ist xxx,yy Euro und aktuell steht Siemens bei xxx,yy Euro.“

Die rudimentäre Form des Voice Portals wird auch Interactive Voice Response (IVR), auch Einzelworterkennung, genannt. IVR ist eine simple Sprachnavigation bei Telefonanlagen. Beispiel: „Um ein Produkt bei uns zu kaufen sagen Sie jetzt bitte ‚Verkauf‘, haben Sie Probleme mit einem Produkt sagen Sie bitte jetzt ‚Service‘, …“

IVR wird in der Praxis auch als Überbegriff für jede Art der Telefonnavigation verwendet. Also auch für das DTMF (Dual-tone multifrequency dialing, „Für den Verkauf drücken Sie jetzt bitte die ‚1‘, für Service drücken Sie jetzt bitte die ‚2‘, …“).

Kerntechnologien

Kerntechnologien, die hier eingesetzt werden, sind Spracherkennung (ASR, Automated Speech Recognition), Sprachsynthese (TTS, Text-to-Speech) und Sprecher-Authentifizierung („Die Stimme als Passwort“). Durch die starke Weiterentwicklung der Spracherkennung in den letzten Jahren sind auch Dialoge aus ganzen Sätzen möglich. Dies ist allerdings nur in wenigen Anwendungsbereichen (Absetzen von mehreren Informationen in einem Satz) sinnvoll, da der Benutzer eher an schnellem Vorwärtskommen im Dialog interessiert ist als daran, in ganzen Sätzen zu sprechen. Natürliche Sprache (NLU) setzt Intelligenz des Dialogpartners voraus. Um NLU effektiv zu nutzen, muss die künstliche Intelligenz des Dialogsystems mit den Möglichkeiten des Spracherkenners Schritt halten. Nachdem die Kerntechnologie heute als weitgehend ausgereift gelten darf, geraten neue Disziplinen in den Blickpunkt der Entwickler von Voice Portalen, z. B. Dialog Design.

Technische Einschränkungen

NLU ist die natürlichste Form der Kommunikation, aber dennoch sind die Möglichkeiten der Darstellung von Informationen im Vergleich zu visuellen Medien sehr limitiert, z. B.:

  • Die meisten Internet-Nutzer nutzen zuerst einfache Suchbegriffe, prüfen die Ergebnisse – um dann die Suche zu verfeinern. Dies nimmt i. d. R. zwei bis drei schnelle Iterationen in Anspruch um die gewünschte Ergebnismenge zu erhalten. Dieser Ansatz wäre bei „gesprochenen Resultaten“ nicht anwendbar, da dies viel zu lange dauern würde.
  • Heutige Spracherkennungs-Technologien korrelieren die gesprochenen Wörter mit einer Liste von erwarteten Äußerungen, die in Ihrer Größe auf wenige tausend Einträge limitiert ist. Bei der Entwicklung eines Voice Portals müssen Annahmen getroffen werden, was gefragt werden könnte. Basierend hierauf müssen Frage/Antwort-Dialoge entwickelt werden, die den Anrufer zu einer bestimmten Information führen. Ein Dialog könnte dann beispielsweise wie folgt aussehen: „Suchen Sie nach Informationen über ein Unternehmen, einen Film, Verkehrsinformationen …?“ „Unternehmen“ „Welche Art von Unternehmen?“ „Restaurant!“ Welche Art von Restaurant?“ „Chinesisch!“ In welcher Straße, Stadtteil oder in der Nähe von welcher Lokation?“ Auch wenn dieses Vorgehen funktionieren kann und für den Anrufer hilfreich sein kann – es ist weit entfernt von den Möglichkeiten, die man mit einer Freitexteingabe bei einer Suchmaschine im Internet hat.

Einsatzbeispiele

Der Einsatz von Sprachdialogsystemen direkt am Endkunden stößt bei deutschen Konsumenten heutzutage meist noch auf Ablehung. Da der Endkunde nicht persönlich eingewiesen werden kann, nicht um die funktionsweise der Systeme weiß und häufig mit (unnötiger und unerwünschter) Werbung über den Sprachdienst "beglückt" wird, ist eine negative Haltung der Eindkunden gegenüber Sprachdiensten nachvollziehbar. Folgende Einsatzfelder sind exemplarisch für den Verbraucherbereich:

  • Verbraucherorientierte Einsatzfelder (Sprachdienste für Endkunden):
    • Informationen und Auskünfte am Telefon, z. B. Fahr- und Flugpläne
    • Automatische Bestellung/ Reservierung am Telefon, z. B. Ticket-Hotline, Katalogbestellungen, Telefonbanking
    • Automatische Telefonzentrale/Vermittlung
    • Vorqualifikation/Autorisierung von Anrufern, z. B. Abfrage der Kundennummer bzw. PIN
    • Intelligente Wartefelder von Call-Centern
    • Stör-Ansage-Management
    • Televoting, Gewinnspiele am Telefon

Innerbetrieblich wird Sprachverarbeitung aktuell kaum genutzt, obwohl hier große Potenziale liegen: Der innerbetriebliche Anwender kann kurz in die Bedienung eingewiesen werden und er arbeitet regelmäßig mit dem Sprachdienst. Dies führt zu effizienter Nutzung bei hoher Akzeptanz durch den Anwender. Die Prozesszeiten innerbetrieblicher Abläufe lassen sich stark beschleunigen bei gleichzeitiger Senkung der Fehlerraten bei der Dateneingabe durch reduzierte Medienbrüche.

  • Innerbetriebliche Einsatzfelder (Sprachdienste für Mitarbeiter):
    • Warenannahme
    • Qualitätsprüfung, Laufprüfung, Produktendabnahme
    • Inventur
    • Inspektion von Anlagen
    • prozessorientierte Ereignismeldung
    • Fern- und Vorortdiagnose
    • kooperative Maschinensteuerung

Sprachliche Interaktion mit Computern ist eine neue Kulturtechnik! Sowohl Benutzer als auch Anwendungsentwickler werden sich erst im Laufe der Zeit auf gemeinsame und allgemein bekannte Dialogkonzepte (Bausteine) einigen. Man sollte sich folglich nicht durch schlecht gestaltete Anwendungen irritieren lassen, sondern wirtschaftliche Lösungen einrichten.

Vorteile und Grenzen interaktiver Sprachdialogsysteme

Mittels Sprache kann gegenüber herkömmlichen grafischen Benutzeroberflächen sehr direkt und natürlich kommuniziert werden:

  • Vorteile der Sprachinteraktion
    • Die Hände und der Blick bleiben frei (verbessert Ergonomie und Prozesszeit).
    • Sprache ist jedem Menschen unmittelbar zugänglich (grössere Qualifikationsmaßnahmen und längere Einlernzeiten zur Oberflächenbedienung entfallen).
    • Die Anforderungen an das Endgerät sind gering (es genügt ein Telefon oder Lautsprecher und Mikrofon).
    • Die allgemeine Verfügbarkeit von (Mobil-) Telefonen erlaubt neue Freiheitsgrade während der Interaktion mit Software-Anwendungen.
    • Moderne sprecherunabhängige Erkennung versteht Äußerungen verschiedener Personen ohne Training (mehrsprachige Applikationen möglich; bis zu einem gewissen Grad auch Dialekte).
    • Alle Informationselemente sind direkt erreichbar (kein mühsames Durchlaufen hierarchischer Menüs und langer Listen).
    • Innerhalb eines spezifischen Kontexts können komplexe Sätze verstanden und automatisch verarbeitet werden (zum Beispiel für die Reservierung eines Dienstwagens über einen Telefonanschluss: "Hallo. Ich hätte gerne einen Wagen für die Strecke Stuttgart - Darmstadt am Donnerstag von 6 bis 22 Uhr").
    • Visuelle Aufgaben erfordern unsere gesamte Aufmerksamkeit. Dialoge führen wir praktisch "nebenbei".
    • Benutzerauthentifizierung: Sichere Identifikation durch Stimmenanalyse ist bereits möglich (verhindert Missbrauch).

Diese enorme Flexibilität von Sprachtechnologie schafft neues Innovationspotenzial für integrierte Unternehmens­prozesse und deren Koordination.


  • Grenzen der Sprachinteraktion
    • Keine 100-prozentige Erkennung
      • Problematisch sind sehr umfangreiche Vokabulare (vermehrt Ähnlichkeiten in der Aussprache verschiedener Begriffe).
      • Auch in absehbarer Zukunft keine perfekte Erkennung (Variabilität der menschlichen Stimme).
    • Raue Umweltbedingungen
      • Wiederholt auftretende Umweltgeräusche können signaltechnisch und softwaretechnisch heutzutage gut herausgefiltert werden.
      • Das Filtern menschlicher Stimmen im Hintergrund bleibt dagegen weiterhin problematisch.
    • Navigation in Menüstrukturen
      • Der Benutzer muss sich mit den Navigationsmöglichkeiten und Funktionen einer Sprachapplikation erst vertraut machen.
      • Lösung: Abgestufte Anwendungs-Modi für Einsteiger und Power User zur effizienten Nutzung.
      • Bei regelmäßiger Nutzung sind überzeugende Prozesszeiten möglich.
    • Unrealistische Erwartungen
      • Man muss "die Regeln" kennen. Computer "verstehen" nicht - es ist lediglich eine Sprach-"Erkennung".


  • Neue Kulturtechnik
    • Sprachliche Interaktion mit Computern ist eine neue Kulturtechnik! Sowohl Benutzer als auch Entwickler werden sich erst im Laufe der Zeit auf gemeinsame und allgemein bekannte Dialogkonzepte (Bausteine) einigen.
    • Man sollte sich folglich nicht durch schlecht gestaltete Anwendungen irritieren lassen, sondern wirtschaftliche Lösungen einrichten.
    • Im industriellen Einsatz lernen die Anwender dank wiederholter Nutzung schnell dazu und können ggf. kurz eingewiesen werden. Eine Evaluation der Dialogführung gemeinsam mit dem Benutzer am Einsatzort ist problemlos möglich.

Kriterien für den Einsatz von Sprachdialogsystemem

Für den Einsatz von Sprachtechnologien sprechen folgende Kriterien:

  • Der Mitarbeiter ...
    • hat wenig Computererfahrung
    • hat eine Schreib-/Leseschwäche
    • spricht nur Fremdsprachen
  • Die Aktivität ist gekennzeichnet durch ...
    • Hände und Blick frei
    • Input leicht in Worte zu fassen
    • Mobilität gefordert
    • Häufig wiederholte Aufgaben
  • Das Arbeitsumfeld ergibt
    • Visuelle Wahrnehmung erschwert
    • Platzmangel, kein Bildschirm/Tastatur
    • Wechsel zwischen Tätigkeit und Computerarbeitsplatz unergonomisch oder zeitintensiv

Siehe auch