Sprachassistenten erobern die Welt

Angelika Zerbe

19.2.2018

Sprachassistenten gewinnen seit einigen Jahren extrem an Beliebtheit. Fast alle Unternehmen haben einen Assistenten entwickelt oder sind gerade dabei. Zu den Bekanntesten zählen Siri, die bereits 2011 an den Start ging, Googles Ok Google, Cortana von Microsoft, Amazons Alexa und Bixby von Samsung.

Die Anbieter verfolgen unterschiedliche Spezialisierungen. So zielt OK Google darauf ab, dem Benutzer situationsbedingte Informationen möglichst personalisiert zu präsentieren. Alexa hingegen führt das Feld zum Thema Smart Home und in der Erweiterung von Sprachbefehlen (Skills) an.

Die Sprachsteuerung hat es geschafft, zu einem neuen Interface zu werden, dem Voice User Interface (VUI). Das bringt auch für die User Experience neue Herausforderungen mit sich. Momentan merkt man schnell, dass Sprachassistenten noch immer in den Kinderschuhen stecken – wenn wir zum Beispiel zum gefühlten 10. Mal den Satz „Entschuldigung, ich habe dich nicht richtig verstanden“ hören oder uns wundern, warum die Musik ausgeht, sobald wir Alexa als Nachtlicht nutzen.

Ein guter Grund, einmal zu recherchieren, worauf es bei der Entwicklung eines Sprachassistenten ankommt und worin die Unterschiede zu herkömmlichen Interaktionen wie Maus, Tastatur, Touchscreens oder Buttons bestehen.

Niedrige Einstiegshürden

Damit kann ich sprechen?

Wir sind es gewohnt auf unserem PC mit einer Tastatur zu schreiben. Auch das Tippen auf der virtuellen Tastatur unserer Smartphones ist uns mittlerweile in Fleisch und Blut übergegangen. Womit wir aber noch nicht vertraut sind, ist das Gespräch mit unseren Geräten. Welche Geschwindigkeit und Lautstärke sind optimal? Es fühlt sich merkwürdig an.

Sprachassistenten erobern zunehmend unseren Alltag. Dennoch empfinden viele eine gewisse Scheu im Umgang mit ihnen. Es braucht natürlich etwas Zeit, bis man sich an die eloquenten Helfer gewöhnt. Als Konzepter können wir da durchaus nachhelfen. Zum Beispiel mit einem guten Onboarding, das dem Nutzer Berührungsängste nimmt und erste Erfolgserlebnisse gibt.

Weiß jeder was ein Hamburger Icon ist?

Diese und ähnliche Fragen sind uns als User Experience Designer im Zusammenhang mit Screen Interfaces bestens vertraut. Mit einem VUI gibt es solche Probleme nicht. Jeder Nutzer weiß, wie man spricht. Der Benutzer muss sich demnach kein neues Wissen aneignen oder sich mit einer unbekannten Plattform vertraut machen. Zumindest ist das der Best Case.

Von diesem Idealzustand können wir aber nicht ausgehen!

Installiert man sich eine gewöhnliche iOS-App und startet sie zum ersten Mal, erscheint ein Startbildschirm. Man entdeckt für gewöhnlich einige Buttons, ein Menü und etwas Text, um sich zurechtzufinden. Bei einem Sprachassistenten ohne Bildschirm wie dem Alexa Dot sehen Sie gar nichts. Matty Mariansky hat mit seinem Team einen Sprachassistenten erstellt, der Kalendereinträge pflegen kann. Diesen hat er von Usern testen lassen, die nicht wussten, um was es sich handelt. Entsprechende Reaktionen der Benutzer ließen nicht auf sich warten:

‍

„This thing can do whatever I ask him, so I’m going to ask him to make me a sandwich.“

oder

„I have no idea what I’m supposed to do now, so I’m just going to freeze and stare at the screen.“

‍

Benutzer, die nicht wissen, was der Sprachassistent können soll, werden zunächst enttäuscht sein. Die Lösung für das Problem ist einfach. Der Assistent stellt sich erst einmal mit ein bis zwei Einführungssätze vor. Danach sollte der Benutzer dazu aufgefordert werden, einen Befehl zu sprechen, um direkt loszulegen. Für den User ist es ein Erfolg, wenn ein Sprachbefehl sofort zur erwünschten Reaktion führt. Grundsätzlich empfiehlt es sich, das Onboarding mehrfach zu testen und die Hürden möglichst gering zu halten.

Zu erstaunlichen Ergebnissen kam eine Studie von Comscore. Darin wurde ermittelt, dass Benutzer von Sprachassistenten diesen sehr einfache Aufgaben stellen. So fragen 57 Prozent der Benutzer nach dem Wetter.
Es ist also wichtig, dass der Benutzer auf Wunsch erfährt, wie er seine Befehle ausbauen und individualisieren kann, um weiterhin zufrieden zu sein und den vollen Mehrwert seines Assistenten zu erschließen.

One-Shots anbieten

Problematisch wird es, wenn Sprachassistenten lange Listen vorlesen, beispielsweise Fahrpläne oder Rezepte. Eine gängige Lösung: die ersten Überschriften vorzutragen und danach zu fragen, ob der Benutzer weitere hören möchte. Sucht man ein zufälliges Rezept heraus, kann das gut funktionieren. Sucht man hingegen etwas Spezielleres, wird es anstrengend und langwierig. Auf einem Bildschirm haben Sie innerhalb von Sekunden das Angebot überflogen und zusätzlich einen viel detaillierteren Einblick gewonnen. Jedes Display, auch ein kleines, ist hier klar im Vorteil.

Beispiel: Rezeptsuche einmal mit Bildschirm und einmal mit Sprache:

‍

Ich: Alexa, öffne Chefkoch.

Alexa: Willkommen bei Chefkoch, worauf hast du heute Lust?

Ich: Alexa, suche Semmelknödel.

Alexa: Ich habe zu Hochmehlknödel nichts gefunden.

Ich: (lauter) Alexa, suche Semmelknödel.

Alexa: Hier ist das Suchergebnis, ich habe Sivi’s Semmelknödel, Semmelknödel excellent, (..). gefunden. Für mehr Details sage z.B. öffne Rezept 1

Ich: Öffne Rezept 1.

Alexa: Für das gewählte Rezept benötigst du 20 Minuten und es hat 4,7 von 5 Sterne.

‍

Anschließend werde ich gefragt, ob Alexa mir das Rezept zuschicken soll. Dieses erscheint sofort in meiner Alexa App. Allerdings sehe ich auch dort kein zugehöriges Bild zum Rezept.

Für Rezepte gehe ich lieber direkt auf die Website. Was hingegen sprachlich perfekt funktioniert sind One-Shots. Das sind Aufgaben, die mit einer Anweisung erledigt sind: „Alexa, Timer 5 Minuten.“ Ebenso gut sind Befehle, die eine Aufgabe starten: „Alexa, spiele Musik.“ oder „Alexa, wie hoch ist die Zugspitze?“

Je weniger der Nutzer auswählen muss, desto besser.

Insgesamt zeigt die Erfahrung mit Alexa, dass Sprache als Interaktionsmöglichkeit alleine nicht ausreicht. Deswegen werden inzwischen vermehrt Produkte wie Echo Show entwickelt – eine Kombination aus Sprachassistent und Touchscreen-Bildschirm. Will man zum Beispiel Taschentücher kaufen, sagt man: „Alexa, ich brauche Taschentücher.“ Daraufhin erhält man auf dem Bildschirm eine Auswahl und kann ein Produkt auswählen. In der Produktentwicklung halte ich es für essenziell, sich früh zu entscheiden, ob es ein Assistent mit Bildschirm-Unterstützung oder ohne wird.

Folge dem Gesprächsverlauf

Ein gutes Conversational User Interface (CUI) sollte in der Lage sein, eine verständliche und durchgängige Konversation zu führen. Fragt man beispielsweise, wer der 16. Präsident der Vereinigten Staaten ist, antwortet Ok Google zuverlässig „Abraham Lincoln”. Ich möchte weitere Informationen zu ihm erhalten und frage „Wie alt war er?“ und danach „Wo ist er geboren?“. Die Antworten sind korrekt und beziehen sich auf den 16. Präsidenten. Es ist großartig, nicht immer wieder ganz von vorne anfangen zu müssen.

Bei einem abrupten Themenwechsel kann es aber passieren, dass sich der Assistent nicht sicher ist, ob sich die Frage auf ein neues Thema bezieht. Bevor er die falsche Antwort gibt, ist es angenehmer, wenn der Assistent einmal freundlich nachfragt.

Das Nachfragen ist gerade bei sensiblen Befehlen wie „Lösche das“ wichtig. Der Assistent muss die Absichten des Benutzers verstehen oder nachfragen, was er löschen soll. Handelt es sich um eine E-Mail oder um das eigene Facebook-Profil?

Sorge für Persönlichkeit

Chatbots brauchen eine Persönlichkeit – ein Tipp von Bettina aus ihrem Blogartikel Gute UX für Chatbots. Das gleiche gilt auch für Sprachassistenten. Eine detaillierte Persona mit Namen und Verhalten muss definiert werden. Beide Merkmale können auch zusammenhängen. Cortana von Microsoft erhielt ihren Namen und ihre Persönlichkeit aus dem futuristischen PC-Spiel „Halo“. Alexas Name hingegen ist historisch bedingt, da er eine Hommage an die Bibliothek Alexandrias ist und demnach für große Wissensmengen steht.

Ein Punkt, der auffällt: zurzeit sind Sprachassistenten vorwiegend weiblich. Auch wenn sich diese Tatsache begründen lässt, ist sie noch lange nicht gesetzt. Es kommt nur darauf an, dass die Stimme sympathisch und verständlich ist. Eine weitere interessante Überlegung lässt sich zum Verhalten des digitalen Helfers anstellen: sollte unser Assistent anders reagieren, wenn ein 20-jähriger eine Pizza bestellt, als bei einer älteren Dame, die Fragen zu einem Medikament hat? Prinzipiell erwarten diese beiden Personen einen anderen Ton in der Konversation. Der erste könnte lustig und leger sein, während die alte Dame besser besonnen und präzise angesprochen wird. Damit man ein geeignetes Verhalten findet, sollte man dieser Aufgabe viel Zeit einräumen.

Dieses Thema beeinflusst auch die Entwicklung des Berufsbildes von UX Designern. Wir entwerfen zukünftig weniger visuelle Elemente, sondern konzipieren viel mehr künstliche Persönlichkeiten. Spannend, finde ich!

Unsere Sprache ist komplex

Durch die Alexa Skills zu scrollen, ist noch ziemlich ernüchternd. Es wird unglaublich viel angeboten, doch die meisten Anwendungen finden wenig Gefallen. 4 oder 5 Bewertungssterne sind selten. Eigentlich nicht wirklich verwunderlich – schließlich waren die ersten Apps für das Smartphone auch kein Hit. Es hat gedauert, bis die Technologie ausgereift und die Entwickler mit den Möglichkeiten vertraut waren.

Mit Sprachassistenten ist es ganz ähnlich. Auch hier müssen sich UX Designer und Entwickler einem ganz neuen Use Case nähern. Zusätzlich stellt sich eine weitere Herausforderung: das Verständnis für menschliche Sprache.

Wir sind es gewohnt, auf Buttons oder Bilder zu klicken und Texte angezeigt zu bekommen. Schaut man sich gut bewertete Skills an, fällt auf, dass gerade Skills, die nicht wirklich Sprache benötigen und in die Kategorie Smart Home fallen, funktionieren:

„Alexa, starte Einschlafgeräusche.“
„Alexa, reduziere die Temperatur um 5 Grad.“

Obwohl diese Befehle funktionieren, gibt es Luft nach oben. Der Befehl ist wie eine spezielle Syntax, die man sich merken muss. Von freiem Sprechen ist das weit entfernt. Verbessern lassen sich diese Befehle zum Beispiel so:

„Alexa, stelle die Heizung bitte so ein, dass mir nicht mehr kalt ist.“
„Alexa, stelle den Herd aus, bevor die Milch überkocht.“

Wir müssen lernen, dass Sprache anders funktioniert als eine Internetseite oder die Sprachsuche.

In einer Skill-Beschreibung finden sich zwar Befehle, wie „Timer auf 5 Minuten“. Aber auch wenn es trivial erscheint, sollte immer dabei stehen, wie ich den Timer wieder ausstellen oder ändern kann. Im Best Case ist der Befehl so simpel wie möglich, damit der Nutzer einfach drauflos reden kann. Der Timer gibt daraufhin eine kurze Bestätigung und ändert sich wie gewünscht.

Fazit: Integration in den Alltag?

Wie sich die Sprachassistenten in unser Leben integrieren, zeigt sich in den nächsten Jahren. Viele Themen sind insgesamt noch unklar. Wie geht man beispielsweise mit schwierigen Fragen um. Das wird heute in vielen Fällen nicht gut gelöst:

Ich: „I want to quit smoking.”
Siri: „Ok, here is what I found [Search results for nearby tobacco shops]”

Hier wird eines deutlich: Regeln, wie die Ethical-Design-Richtlinien und ethische Kriterien zur Gesundheit müssen noch stärker integriert werden.

Ich freue mich auf jeden Fall auf spannende Projekte, die im Zusammenhang mit Sprachassistenten auf uns zukommen und auf die Möglichkeit tiefer in das Thema einzusteigen.