1. Zurück

Der Siegeszug der Sprache

Bislang sprachen Menschen mit Menschen, bestenfalls noch mit Haustieren. Mittlerweile reden Menschen mit „Maschinen“ und es funktioniert! Oft sogar besser als mit den Kindern, stöhnt mancher Elternteil, der vergeblich versucht, seine Kinder zum Aufräumen zu bewegen. Ob Smartphone, Auto oder Fernseher – immer mehr technische Gerätschaften können wir mit Worten steuern. Und die „Maschinen“ steuern und lenken auch uns.

„Natürlichsprachliche Interaktion mit Maschinen“

Lange galt Sprache als zu komplex, als dass Computer sie über einfache Befehle hinaus verstehen könnten. Dass nicht beseelte Maschinen mittlerweile „sprechen und hören“, verdanken wir künstlicher Intelligenz (KI).

Jahrzehntelang waren Artificial-Intelligence-(AI-)Systeme ein Spielfeld für Tüftler und Freaks, aber jetzt scheint die Zeit reif für einen breiten Einsatz dieser Technik, verkündeten die Experten auf dem Gartner Symposium/ITxpo in Orlando 2016. Und für viele Menschen gehören diese Lösungen längst unmerklich zum Alltag.

Gartner prophezeit, dass in den nächsten drei bis fünf Jahren rund die Hälfte aller analytischen Interaktionen durch KI geliefert werden. Dabei werde sich die natürlichsprachliche Interaktion mit Maschinen immer mehr durchsetzen. Schon heute interagierten viele Menschen via KI-Systeme, ohne es zu wissen. Das treffe etwa für diejenigen zu, die IBMs Watson, IPSofts Amelia, Apples Siri, Microsofts Cortana oder den Google Assistant nutzten.

Durchbruch mit Deep Learning

Dass Maschinen die menschliche Sprache inzwischen recht gut verstehen und Sprachsysteme komfortabel die Benutzer­oberflächen erweitern, verdanken wir einem Quantensprung in der Wissenschaft. „Die Intelligenz der Systeme hat enorme Fortschritte gemacht. Der Grund hierfür ist Deep Learning“, erläutert Sprachdialogforscher Stefan Ultes. Ob Siri, Cortana oder Alexa – allesamt basieren die Sprachassistenten auf Deep Learning.

Siri und vergleichbare Systeme sind im Wortsinn in aller Munde. Nach einer aktuellen Umfrage des Branchenverbandes Bitkom nutzen 52 Prozent der Smartphone-Besitzer die Sprach­eingabe – am häufigsten zum Anrufen, danach folgen das Verfassen von Textnachrichten und das Abrufen von Wetterinfos und Fußballergebnissen.

Lassen Sie den Kunden sprechen – mit dem Sprachdialogsystem

Beim Anruf einer Telefonhotline tragen wir unser Anliegen ganz selbstverständlich sprechenden Maschinen vor. Immer seltener müssen Hotline-Anrufer dabei nach einem maschinell vorgetragenen Auswahlmenü eine Taste drücken, eine Zahl sprechen oder einfach „Ja“ oder „Nein“ sagen. Die sogenannten Interactive-Voice-Response(IVR)-Systeme, sind zu Sprachportalen herangereift. Anrufer führen mit ihnen Dialoge, bei denen die Maschine das Gesagte tatsächlich versteht. Auch können sie anrufende Kunden identifizieren, mit einer persönlichen Ansprache empfangen und anhand der vorhandenen Kundendaten direkt auf das voraussichtliche Anliegen des Anrufers eingehen.

Komplett automatisiert sind längst vor allem einfache Standard-anfragen wie etwa zum Kontostand oder zu Fahrtzeiten von Zügen oder Bussen. Das Potenzial ist enorm, denn etwa die Hälfte der Kundenservices wird übers Telefon abgewickelt, so der Branchenzusammenschluss Contact Center Network.

Im Lager und beim Arzt

Auch in der Logistik gehören Spracherkennungslösungen zum Alltag. Ausgerüstet mit Funk-Headset und einem kleinen Mobile Device sprechen Kommissionierer beim Zusammenstellen der Waren die jeweiligen Artikelbezeichnungen in das Gerät ein – und haben so die Hände frei. Pick-by-voice ist der Fach­begriff hierfür.

Ganz ähnlich könnten künftig Wartungsmonteure ausgestattet sein. Im Zeitalter von Industrie 4.0 könnten fehlerhafte Maschinen den Monteuren mit gesprochenen Hinweisen behilflich sein.

Ein weiteres aussichtsreiches Feld für Spracherkennungssysteme ist das Gesundheitswesen. Schon gibt es Projekte, bei denen Ärzte Diagnosen in digitale Krankenakten diktieren oder sich in Operationssälen notwendige Infos auf einem Bildschirm anzeigen lassen.

„Das schaffen wir!“ – Avatarin KRISTINA unterstützt bei Integration und Pflege

KRISTINA wird sich ihrem jeweiligen Gesprächspartner und ihrem jeweiligen Einsatz anpassen. Dieser findet auf Tablets, Smartphones und Laptops statt, denn KRISTINA ist eine Avatarin.

Entwickelt wird die vielseitige Dame derzeit in einem europäischen Forschungsprojekt. Zu den neun Projektpartnern gehören auch vier Institutionen aus Deutschland: Die Universitäten Augsburg und Ulm, das Geriatrische Zentrum der Universitätsklinik sowie der DRK-Kreisverband Tübingen. Sie haben sich mit Projektpartnern in Spanien, Griechenland, Frankreich und den Niederlanden zusammengetan. Das Ziel ist die Entwicklung einer virtuellen Assistentin, die dabei hilft, Sprach- und Verständnisprobleme zum Beispiel im Kontext von Pflege zu überwinden und wichtige Basisinformationen für die Beteiligten verfügbar zu machen.

Mögliche Anwender können in Zukunft unter anderem Ein­wanderer sein, die in ihrer Sprache über Impfprogramme an ihrem neuen Aufenthaltsort aufgeklärt werden oder KRISTINA fragen können, wohin sie sich mit ihrem Kind wenden können, wenn es Fieber hat.

KRISTINA wird eine Frau mit vielen Gesichtern sein und zahlreiche Sprachen sprechen: Wenn KRISTINA Pflegekräfte aus Osteuropa berät, dann ist sie eine bodenständige Frau, die erste graue Haare nicht verbirgt. Für Gespräche mit Einwanderern aus Nordafrika wird sie wieder anders aussehen, als wenn sie türkischsprachige Pflegebedürftige und deren Angehörige mit Informationen versorgt.

„Am Ende soll es so sein, dass die Nutzer das Gefühl haben, am Bildschirm mit einer echten Person zu sprechen“, erläutert Benjamin Schäfer den hohen Anspruch. Er ist für den DRK-Kreisverband Tübingen an dem auf drei Jahre angelegten Projekt beteiligt.

Zuhause auch

Die eigenen vier Wände sind ebenfalls ein Einsatzfeld für Sprachsysteme. Laut der Studie Smart Home Monitor setzen 30 Prozent der Deutschen solche Systeme in irgendeiner Form bereits ein, 50 Prozent zeigen sich interessiert. Die Spracherkennung gilt als zusätzlicher Treiber. Laut einer Bitkom-Befragung können sich 63 Prozent der Deutschen vorstellen, das intelligente Heim nicht nur mit dem Smartphone im Griff zu haben, sondern per Sprache zu steuern. Zahlreiche Hersteller jedenfalls bringen sich in Position. Unlängst hat etwa die Deutsche Telekom ihr Smart-Home-System mit Amazons Alexa gekoppelt. Über Apples Siri lassen sich Heizung, Licht und anderes schon länger per Sprache steuern, mit dem Update der Homekit-App für iOS10 ist die Sache noch sehr viel ausgereifter geworden. Mit Google Home hat der Internetriese Alphabet inzwischen ebenfalls den vielversprechenden Markt betreten.

Gestatten – Alexa, stets zu Diensten

Wenn Sabrina Hoefs, Head of Marketing bei ALSO Deutschland, eine Einkaufsliste zusammenstellen möchte, greift sie nicht zu Zettel und Stift, sondern ruft Alexa. Hoefs gehört zu den ersten Nutzern von Amazons Sprachdialog-System Echo mit seiner digitalen Assistentin Alexa. Käse, Butter, Schinken, Rotwein – Alexa merkt sich das Gewünschte auf Zuruf und überträgt die Liste automatisch auf das Smartphone. Außerdem regelt sie die Heizung, steuert das Licht, spielt Musik oder Filme ab – ein Wort genügt.

Emotionale Intelligenz

„Spracherkennungssysteme werden wir überall dort nutzen, wo es den Komfort erhöht, Prozesse vereinfacht oder einfach auch Spaß macht“, ist Sprachdialogforscher Stefan Ultes überzeugt. „In Kombination mit dem Erkennen von Mimik und Gestik werden Maschinen irgendwann unsere Emotionen lesen können und sehr viel genauer verstehen, was wir von ihnen wollen.“

Auf dem Gartner Symposium/ITxpo in Orlando 2016 zeigte Analyst Daryl Plummer, wie KI-Systeme funktionieren, indem er sich mit IPSofts Avatar Amelia unterhielt. Amelia ist ein „Cognitive Agent“, der etwa an einem Service-Desk eingesetzt werden kann, weil er unter anderem in der Lage ist, akzeptabel zu sprechen und Emotionen zu erkennen. Amelia sagte: „Daryl, du siehst ein bisschen gestresst aus. Wusstest du, dass dein Hotel exzellente Fitness-Einrichtungen hat?“ Plummer beteuerte, er habe nie danach gefragt.

Trotz des derzeitigen Booms in der Spracherkennung: „Wir stehen immer noch am Anfang. Echte Dialoge mit Maschinen sind nach wie vor nicht möglich“, bilanziert Wissenschaftler Ultes. Aber wer will schon immer einen echten Dialog? Manchmal reicht es, wenn getan wird, was gesagt wurde – das Aufräumen des Zimmers beispielsweise.

„ Alexa macht das Leben um einiges komfortabler. Genau hierin sehe ich aktuell den größten Vorteil solcher Systeme. Jedoch sollte man sich stets bewusst sein, welche Daten man preisgibt oder welche Aufträge man über ein solches System abwickelt. Ich vertraue darauf, dass die Anbieter verantwortungsvoll mit den Daten umgehen.“

Sabrina Hoefs, Head of Marketing bei ALSO Deutschland

Quellen:

computerwoche.de| Bitkom | news.hiltonworldwide.com | drktuebingen.de/fileadmin/content/wir_ueber_uns/Blaulicht_aktuell/1603_Blaulicht_Aktuell.pdf | kristina.taln.upf.edu/en/ | it-zoom.de | faz.net | haustechnikdialog.de | smart-wohnen.de | smarthomewelt.de