Virtuelle Rezeption

Zusammenfassung

Ziel des Projektes ist die Entwicklung von nutzerfreundlichen multimodalen Dialogen in mobilen Umgebungen. Dazu ist das  Gesamtprojekt in folgende Teilbereiche untergliedert: Telefonie, mobile Anwendungen und statistische Spracherkennung.

Die „Virtuelle Rezeption“ stellt kleinen Tourismusanbietern einen einfachen natürlichsprachlichen Zugang zur Verwaltung seiner Daten über das Telefonnetz zur Verfügung. Anfangs sollen das Bearbeiten von Kontingenten und Buchungen sowie die Konfiguration von Reisepaketen realisiert werden.

Das System wird rein auditiv über das Telefonnetz bedient und ist somit auch in Regionen ohne Internetversorgung erreichbar.

Um Reisende unterwegs zu unterstützen, werden verschiedene mobile Anwendungen entwickelt, die einen einfachen multimodalen Zugang zu touristischen Angeboten bieten. Die Bedienung erfolgt auditiv als natürlichsprachlicher Dialog sowie visuell über das Display des Endgeräts.

Der Tourist kann sich über touristische Angebote informieren und diese auch direkt buchen. Die Informationen können im Kontext angepasst werden um „maßgeschneiderte“ Angebote „vor Ort“ zu unterbreiten.

Die Anwendungen unterstützen die Integration von Sprache, Text, Bildern und Videos, so dass die Informationen in ansprechender Weise präsentiert werden.

Technische Grundlage ist die statistische Spracherkennung, die im Gegensatz zu grammatikbasierten Systemen ohne einen vordefinierten Wortschatz auskommt.

Android Client

Der Android Client bietet dem Touristen eine interaktive Möglichkeit, nützliche Informationen direkt "vor Ort" zu erhalten. Die gesamte Anwendung kann sowohl per Sprache als auch per GUI bedient werden. Durch den Einsatz des Sprachdialogsystems können die Eingabemöglichkeiten der GUI auf die notwendigsten Elemente beschränkt werden. Somit bleibt gerade auf kleinen Displays mehr Platz für die Darstellung des eigentlichen Inhalts und die Bedienung wird wesentlich vereinfacht. Die Software ist mit einer Sprachausgabe (TTS) ausgestattet.

Das System verarbeitet allgemeine Fragen und Anweisung in der Domäne Tourismus. Zusätzlich können spezielle Fragestellungen wie z.B. "Zeige mir Unterkünfte in der Nähe" durch die Nutzung der Geoposition des Gerätes sofort beantwortet werden. Auch die Angabe von Zeiträumen (z.B. heute, morgen, nächste Woche, zu Ostern) ist problemlos möglich und vereinfacht die Bedienung wesentlich.

Die Position eines touristischen Angebots wird unter den Detailinformationen in Form eines Google Maps Markers angezeigt. Von hier kann mit einem Fingertipp die Navigation zum Angebot initiiert werden. Gleichzeitig werden andere, zur Suchanfrage passende, Angebote in der Nähe mit angezeigt.

iOS Client

Die Funktionen des iOS Clients sind identisch mit denen des Android Clients.

Technische Beschreibung

"Entwicklung von Dialog- und Spracherkennungswerkzeugen für einen intuitiven, auditiven Dialog"


Ziel

Ziel des Forschungsvorhabens ist die Entwicklung von Technologien für das Führen von nutzerfreundlichen multimodalen Dialogen in stationären und mobilen Umgebungen.

Als Ergebnis des Projektes liegen wissenschaftliche Erkenntnisse und funktionsfähige Prototypen zur statischen Spracherkennung, zum Einsatz von Spracherkennung im mobilen Umfeld und zur Modellierung von nutzerfreundlichen IVR-Systemen vor.


Das Gesamtprojekt wird in folgende Teilbereiche untergliedert:

  • Telefonie
  • Mobile Anwendungen
  • Statistische Spracherkennung

Für die Teilbereiche „Telefonie“ und „Mobile Anwendungen“ wird jeweils ein Anwendungsszenario definiert, anhand dessen der Anwendungszweck und der Mehrwert für die Nutzer erläutert werden. Der Teilbereich „Statistische Spracherkennung“ ist die Basis für die natürlichsprachliche Dialogführung in den beiden vorgenannten Bereichen.

Telefonie

Als Beispielszenario für den Bereich „Telefonie“ wird eine „Virtuelle Rezeption“ für kleine bis mittlere Tourismusanbieter (z.B. Ferienwohnungen, Pensionen – im folgenden „Anbieter“ genannt) definiert. Sie stellt dem Anbieter über das Telefonnetz einen einfachen natürlichsprachlichen Zugang zur Verwaltung seiner Daten zur Verfügung. In der ersten Prototypphase sollen häufig auftretende Anwendungsfälle, wie z.B. das Abfragen und Ändern von Kontingenten und Buchungen sowie die Konfiguration von Reisepaketen realisiert werden.

Das System wird rein auditiv über das Telefonnetz bedient und ist somit auch in Regionen ohne Internetversorgung oder von unterwegs erreichbar.

Mobile Anwendungen

Das Beispielszenario für den Bereich „Mobile Anwendungen“ beinhaltet eine Anwendung für mobile Endgeräte (z.B. das IPhone), mit deren Hilfe ein Reisender - im folgenden „Tourist“ genannt - einen einfachen multimodalen Zugang zu touristischen Angeboten erhält. Die Bedienung erfolgt sowohl auditiv, im Rahmen eines natürlichsprachlichen Dialogs, als auch visuell über das Display des Endgeräts.

Der Tourist kann beliebige Informationen einholen, sich über aktuelle touristische Angebote informieren und diese auch direkt über das Endgerät buchen. Die Informationen können optional über kontextbezogene Parameter (z.B. die geografische Position des Touristen) angepasst werden. Somit ist es möglich dem Anwender „maßgeschneiderte“ Angebote „vor Ort“ zu unterbreiten.

Die Anwendung unterstützt die Integration von Sprache, Text, Bildern, Videos und Animationen, so dass die Informationen in ansprechender Weise präsentiert werden.

Statistische Spracherkennung

Die statistische Spracherkennung bildet die Grundlage für die vorgenannten Anwendungsszenarien, da sie eine natürlichsprachliche, syntaxunabhängige und fehlerresistente Erkennung ermöglicht.

Der wesentliche Unterschied zu grammatikbasierten Systemen besteht darin, dass das System auch Äußerungen erkennen kann, die nicht in einem, im Vorfeld definierten, Wortschatz enthalten sind.

Die Basis für eine statistische Erkennung bildet in jedem Fall ein möglichst umfangreicher Textkorpus in Form von annotierten Audiodaten, die im Idealfall eine Vielzahl der gebräuchlichsten Redewendungen enthält. Ausgehend von diesem Initialkorpus können statistische Spracherkenner stetig mit Daten aus dem realen Betrieb trainiert werden. Dies ermöglicht eine fortlaufende Verbesserung der Erkennungsraten bei andauernder Nutzung.

Der Hauptgrund für die Nutzung von statistischen Sprachmodellen ist die Fähigkeit, beliebige Äußerungen zu erkennen. Dazu zählen u.a. Äußerungen, die nicht in einer vorher definierten Grammatik enthalten oder syntaktisch falsch sind. Im Folgenden werden drei verschiedene Dialogvarianten beschrieben, um die Einordnung und den Nutzen einer statistischen Erkennung zu verdeutlichen.

Das Projekt wird gefördert durch die Technologie-Beratungs-Institut GmbH, Schwerin im Auftrag des Ministeriums für Wirtschaft, Arbeit und Tourismus, Mecklenburg-Vorpommern.