Sprachgesteuerte Anwendungen mittels Datenannotation erstellen

Die meisten Menschen halten Sprach­assistenten für ein neu­artiges Phänomen. In gewisser Hin­sicht stimmt das auch: Im ver­gangenen Jahrzehnt reihte sich eine Innovation an die andere. 2011 führte Apple den heute all­gegenwärtigen Sprachassistenten Siri ein. 2014 konterte Microsoft mit einem eigenen Sprach­assistenten, Cortana. Und Amazon ver­öffentlichte seinen Sprach­assistenten Alexa als Teil des intelligenten Laut­sprechers Amazon Echo – ebenfalls im Jahr 2014.

Doch die Wurzeln moderner Sprach­assistenten reichen 60 Jahre zurück, ins Jahr 1961, als IBM das erste digitale Sprach­erkennungs­gerät ent­wickelte: IBM Shoebox. In den 70er- und 80er-Jahren folgten weitere digitale Sprach­erkennungs­systeme, darunter das „Harpy“-Projekt der US-amerikanischen Carnegie Mellon University. Mit der Markteinführung von Dragon Dictate im Jahr 1990 stand Sprach­erkennungs­software erstmals auch Privat­kunden zur Ver­fügung – für den stolzen Preis von 9.000 US-Dollar.

Dass Sprach­assistenten in letzter Zeit eine solche Be­liebtheit erfahren, liegt vorrangig an ver­änderten Kunden­wünschen und techno­logischen Fort­schritten. Untersuchungen belegen ein­deutig, dass Sprach­assistenten kein flüchtiges Phänomen sind. Vielmehr werden Kunden künftig be­vorzugt mit ihnen im Web nach Pro­dukten und Services suchen. Jetzt schon suchen beinahe 60 % aller Amerikaner per Sprach­steuerung nach Unternehmen in ihrer Nähe.

Funktionsweise von Sprach­assistenten

Das Prinzip eines Sprach­assistenten ist die Um­wandlung von ge­sprochener Sprache in Text. Um diesen Prozess aus­zulösen, muss der Nutzer eine vorab fest­gelegte Signal­formulierung aus­sprechen, die den Assistenten gewisser­maßen aufweckt. Das kann „Hey, Siri“ oder „Hey, Google“ sein. Alles, was nach der Signal­formulierung aus­gesprochen wird, zeichnet das Gerät auf. Erkennt es eine Pause, hält es die Aufzeichnung an.

Die Aufzeichnung wird in die Daten­bank ein­gespielt und vom System geparst. Das heißt, das System zerlegt das Gesagte in „Einzel­teile“, um die Ab­sicht des Nutzers zu ermitteln. Sagt ein Nutzer beispiels­weise: „Hey, Siri. Ich möchte dieses Jahr an Weih­nachten in den Urlaub fahren“, beachtet der Assistent die Wörter, die eine Ab­sicht aus­drücken, also „Urlaub“ und Weih­nachten“. Als Nächstes würde er den Text in Sprache um­wandeln (Sprach­synthese) und der Auf­forderung nach­kommen, beispiels­weise mit der Nennung von Reise­optionen für den 25. Dezember.

Datenannotation und Sprach­assistenz­technologie

Es wäre gut, wenn Sprach­assistenten auch gleich Dialekte und feine Nuancen der mensch­lichen Sprache er­kennen würden, doch das ist nicht so einfach. Damit wir von künst­licher Intelligenz (KI) und maschinellem Lernen (ML) profitieren können, müssen wir relevante Daten­sätze in das jeweilige System einspeisen – ein Prozess namens „überwachtes Lernen“. Das System ver­wendet diese Daten­sätze dann im Grunde, um sich selbst das Sprechen beizubringen.

Datenannotation ist eine Methode zum Kategorisieren digitaler Daten­sätze, damit diese von einer ML-Engine verstanden und ver­arbeitet werden können. Im Regel­fall müssen Menschen, sogenannte Analysten, den Prozess der Daten­annotation be­aufsichtigen. Sie er­gänzen Daten­quellen wie Text, Bilder, Videos und Audio­dateien um Tags, eine Form von Metadaten. Im nächsten Schritt ver­arbeiten Engines annotierte Daten mithilfe eines Algorithmus. Das versetzt sie in die Lage, in neuen Daten­sätzen Muster zu erkennen. Für den Lern­erfolg der Algorithmen ist daher höchste Genauigkeit gefordert.

Es gibt mehrere Methoden der Daten­annotation, zum Beispiel diese:

  • Semantische Annotation. Dabei werden Konzepte wie Namen oder Objekte innerhalb von Text­dateien erkannt und annotiert. Mittels semantisch annotierter Daten lernen Engines, neue Konzepte zu kategorisieren.
  • Textkategorisierung. Dabei werden einzelnen Dokumenten Kategorien zugeordnet. Ein Analyst taggt Teile eines Dokuments nach Themengebiet, z. B. Sport.
  • Video-/Bildannotation. Hierfür gibt es zahlreiche Beispiele. Eine gängige Methode der Bild­annotation ist die semantische Seg­mentierung. Hierbei wird jedem einzelnen Pixel eines Bilds eine Be­deutung zu­gewiesen, damit die Engine den annotierten Bereich besser erkennt.

Google Aktionen und Alexa Skills

Unternehmen, die ihren Kunden sprach­gesteuerte Funktionen bieten möchten, stehen die Entwickler­tools von Platt­formen wie Google und Amazon zur Ver­fügung, um deren Sprach­assistenten dafür zu nutzen. Die Entwickler­plattform von Google heißt Aktionen. Aktionen sind Funktionen oder Absichten, die Google Assistant anleiten. Marken können sie ver­wenden, um sprach­gesteuerte An­wendungen genau nach ihren An­forderungen zu er­stellen. Ein Restaurant beispiels­weise kann mithilfe einer Aktion Kunden das Bestellen von Gerichten ermöglichen.

Google Aktionen fallen in drei breit­gefächerte Kategorien: funktionale (oder Kontakt-)Aktionen, Aktionen für daheim und Vorlagen. Als funktionale Aktion gilt zum Beispiel ein Rezept. Aktionen für daheim steuern Google-Geräte für Smart Homes und Vor­lagen dienen Nutzern dazu, sich Spiele und Quizze aus­zudenken. Aktuell gibt es mehr als 30.000 Google Aktionen, allein im ersten Quartal 2020 kamen 3.617 hinzu.

18.828 aller Google Aktionen sind auf Englisch (Stand 2020), doch gegenüber dieser Vormacht­stellung holen andere Sprachen derzeit auf. So liegt Hindi mit 7.554 Aktionen auf dem zweiten Platz. Für Marken mit Expansions­plänen wird die Aus­weitung der sprach­lichen Vielfalt von Google Aktionen ein Muss sein.

Amazon bietet eine ähnliche Entwickler­plattform. Sie heißt Alexa Skills. 2019 gab es für Alexa über 100.000 Skills in Kategorien wie Business, Finanzen, Nachrichten und Wetter. Sowohl Google als auch Amazon ver­pflichten Ent­wickler zur Daten­annotation, um eine Aktion oder Skill mit einem be­stimmten Parameter zu verknüpfen. Google führt die folgende Beispiel­formulierung an: „Buchen Sie ein Zimmer für Dienstag.“ „Dienstag“ wird annotiert und mit der Absicht (bei Google „Intent“ genannt), ein Zimmer buchen zu wollen, verknüpft.

Das Erstellen einer sprach­gesteuerten An­wendung mittels Daten­annotation ist eine große Aufgabe, ins­besondere für Unternehmen, die Funktionen in mehreren Sprachen an­bieten wollen. Sprach­assistenten werden immer be­liebter, also werden Platt­formen wie Google und Amazon ihr Angebot an Entwickler­tools und -funktionen ausweiten. Dank diesen Tools können Unternehmen ihren Kunden Sprach­steuerungs­funktionen und heraus­ragende Benutzungs­erlebnisse in Märkten rund um den Globus bieten. Zögern Sie daher besser nicht, selbst eine sprach­gesteuerte Suche anzubieten.

 

Wir bedanken uns bei Hinde Lamrani, International Search Subject Matter Expert bei RWS Moravia, für ihren Input zu diesem Blogartikel.