Die meisten Menschen halten Sprachassistenten für ein neuartiges Phänomen. In gewisser Hinsicht stimmt das auch: Im vergangenen Jahrzehnt reihte sich eine Innovation an die andere. 2011 führte Apple den heute allgegenwärtigen Sprachassistenten Siri ein. 2014 konterte Microsoft mit einem eigenen Sprachassistenten, Cortana. Und Amazon veröffentlichte seinen Sprachassistenten Alexa als Teil des intelligenten Lautsprechers Amazon Echo – ebenfalls im Jahr 2014.
Doch die Wurzeln moderner Sprachassistenten reichen 60 Jahre zurück, ins Jahr 1961, als IBM das erste digitale Spracherkennungsgerät entwickelte: IBM Shoebox. In den 70er- und 80er-Jahren folgten weitere digitale Spracherkennungssysteme, darunter das „Harpy“-Projekt der US-amerikanischen Carnegie Mellon University. Mit der Markteinführung von Dragon Dictate im Jahr 1990 stand Spracherkennungssoftware erstmals auch Privatkunden zur Verfügung – für den stolzen Preis von 9.000 US-Dollar.
Dass Sprachassistenten in letzter Zeit eine solche Beliebtheit erfahren, liegt vorrangig an veränderten Kundenwünschen und technologischen Fortschritten. Untersuchungen belegen eindeutig, dass Sprachassistenten kein flüchtiges Phänomen sind. Vielmehr werden Kunden künftig bevorzugt mit ihnen im Web nach Produkten und Services suchen. Jetzt schon suchen beinahe 60 % aller Amerikaner per Sprachsteuerung nach Unternehmen in ihrer Nähe.
Funktionsweise von Sprachassistenten
Das Prinzip eines Sprachassistenten ist die Umwandlung von gesprochener Sprache in Text. Um diesen Prozess auszulösen, muss der Nutzer eine vorab festgelegte Signalformulierung aussprechen, die den Assistenten gewissermaßen aufweckt. Das kann „Hey, Siri“ oder „Hey, Google“ sein. Alles, was nach der Signalformulierung ausgesprochen wird, zeichnet das Gerät auf. Erkennt es eine Pause, hält es die Aufzeichnung an.
Die Aufzeichnung wird in die Datenbank eingespielt und vom System geparst. Das heißt, das System zerlegt das Gesagte in „Einzelteile“, um die Absicht des Nutzers zu ermitteln. Sagt ein Nutzer beispielsweise: „Hey, Siri. Ich möchte dieses Jahr an Weihnachten in den Urlaub fahren“, beachtet der Assistent die Wörter, die eine Absicht ausdrücken, also „Urlaub“ und Weihnachten“. Als Nächstes würde er den Text in Sprache umwandeln (Sprachsynthese) und der Aufforderung nachkommen, beispielsweise mit der Nennung von Reiseoptionen für den 25. Dezember.
Datenannotation und Sprachassistenztechnologie
Es wäre gut, wenn Sprachassistenten auch gleich Dialekte und feine Nuancen der menschlichen Sprache erkennen würden, doch das ist nicht so einfach. Damit wir von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) profitieren können, müssen wir relevante Datensätze in das jeweilige System einspeisen – ein Prozess namens „überwachtes Lernen“. Das System verwendet diese Datensätze dann im Grunde, um sich selbst das Sprechen beizubringen.
Datenannotation ist eine Methode zum Kategorisieren digitaler Datensätze, damit diese von einer ML-Engine verstanden und verarbeitet werden können. Im Regelfall müssen Menschen, sogenannte Analysten, den Prozess der Datenannotation beaufsichtigen. Sie ergänzen Datenquellen wie Text, Bilder, Videos und Audiodateien um Tags, eine Form von Metadaten. Im nächsten Schritt verarbeiten Engines annotierte Daten mithilfe eines Algorithmus. Das versetzt sie in die Lage, in neuen Datensätzen Muster zu erkennen. Für den Lernerfolg der Algorithmen ist daher höchste Genauigkeit gefordert.
Es gibt mehrere Methoden der Datenannotation, zum Beispiel diese:
- Semantische Annotation. Dabei werden Konzepte wie Namen oder Objekte innerhalb von Textdateien erkannt und annotiert. Mittels semantisch annotierter Daten lernen Engines, neue Konzepte zu kategorisieren.
- Textkategorisierung. Dabei werden einzelnen Dokumenten Kategorien zugeordnet. Ein Analyst taggt Teile eines Dokuments nach Themengebiet, z. B. Sport.
- Video-/Bildannotation. Hierfür gibt es zahlreiche Beispiele. Eine gängige Methode der Bildannotation ist die semantische Segmentierung. Hierbei wird jedem einzelnen Pixel eines Bilds eine Bedeutung zugewiesen, damit die Engine den annotierten Bereich besser erkennt.
Google Aktionen und Alexa Skills
Unternehmen, die ihren Kunden sprachgesteuerte Funktionen bieten möchten, stehen die Entwicklertools von Plattformen wie Google und Amazon zur Verfügung, um deren Sprachassistenten dafür zu nutzen. Die Entwicklerplattform von Google heißt Aktionen. Aktionen sind Funktionen oder Absichten, die Google Assistant anleiten. Marken können sie verwenden, um sprachgesteuerte Anwendungen genau nach ihren Anforderungen zu erstellen. Ein Restaurant beispielsweise kann mithilfe einer Aktion Kunden das Bestellen von Gerichten ermöglichen.
Google Aktionen fallen in drei breitgefächerte Kategorien: funktionale (oder Kontakt-)Aktionen, Aktionen für daheim und Vorlagen. Als funktionale Aktion gilt zum Beispiel ein Rezept. Aktionen für daheim steuern Google-Geräte für Smart Homes und Vorlagen dienen Nutzern dazu, sich Spiele und Quizze auszudenken. Aktuell gibt es mehr als 30.000 Google Aktionen, allein im ersten Quartal 2020 kamen 3.617 hinzu.
18.828 aller Google Aktionen sind auf Englisch (Stand 2020), doch gegenüber dieser Vormachtstellung holen andere Sprachen derzeit auf. So liegt Hindi mit 7.554 Aktionen auf dem zweiten Platz. Für Marken mit Expansionsplänen wird die Ausweitung der sprachlichen Vielfalt von Google Aktionen ein Muss sein.
Amazon bietet eine ähnliche Entwicklerplattform. Sie heißt Alexa Skills. 2019 gab es für Alexa über 100.000 Skills in Kategorien wie Business, Finanzen, Nachrichten und Wetter. Sowohl Google als auch Amazon verpflichten Entwickler zur Datenannotation, um eine Aktion oder Skill mit einem bestimmten Parameter zu verknüpfen. Google führt die folgende Beispielformulierung an: „Buchen Sie ein Zimmer für Dienstag.“ „Dienstag“ wird annotiert und mit der Absicht (bei Google „Intent“ genannt), ein Zimmer buchen zu wollen, verknüpft.
Das Erstellen einer sprachgesteuerten Anwendung mittels Datenannotation ist eine große Aufgabe, insbesondere für Unternehmen, die Funktionen in mehreren Sprachen anbieten wollen. Sprachassistenten werden immer beliebter, also werden Plattformen wie Google und Amazon ihr Angebot an Entwicklertools und -funktionen ausweiten. Dank diesen Tools können Unternehmen ihren Kunden Sprachsteuerungsfunktionen und herausragende Benutzungserlebnisse in Märkten rund um den Globus bieten. Zögern Sie daher besser nicht, selbst eine sprachgesteuerte Suche anzubieten.
Wir bedanken uns bei Hinde Lamrani, International Search Subject Matter Expert bei RWS Moravia, für ihren Input zu diesem Blogartikel.