Dimitar Shterionov über die neuesten Forschungstrends der maschinellen Übersetzung

Bei RWS Moravia haben wir stets ein Ohr an den neuesten Ent­wicklungen der Sprach­forschung, ins­besondere was die maschinelle Über­setzung (MT) an­belangt. Maribel Rodríguez Molina, RWS Moravia Language Technology Development & Deployment Manager, hat sich mit Dimitar Shterionov, Assistant Professor an der nieder­ländischen Uni­versität Tilburg sowie ehe­maliger Assistant Professor an der Dublin City University (DCU) und Mit­arbeiter des dortigen ADAPT Centre, über neuronales Post-Editing, Rück­übersetzungen zur Ver­besserung der MT-Leistung und die der­zeit spannendsten MT-Themen unterhalten.

Dimitar, erzählen Sie uns doch ein bisschen von sich selbst und über Ihren Forschungs­schwerpunkt.

Bis Januar dieses Jahres hatte ich eine Post­doktoranden­stelle am ADAPT Centre der Dublin City University inne. Ich forschte dort in einer Art Scharnier­funktion an Pro­jekten aus der freien Wirt­schaft, mit denen das ADAPT Centre zu tun hatte. Wenn ein Unter­nehmen moderne Forschung be­treiben wollte, um seine Dienst­leistungen zu ver­bessern oder neue Dienst­leistungen am Markt an­zubieten, war ich einer der Mit­arbeiter am ADAPT Centre, die in die Projekt­umsetzung ein­gebunden waren. Zu meinen Auf­gaben ge­hörten er­forderliche Recherchen sowie die Projekt­entwicklung und/oder -bereit­stellung. Von Januar bis Juni 2020 be­kleidete ich dann eine Stelle als Assistant Professor an der DCU und ar­beitete weiter­hin mit dem ADAPT Centre zusammen. Im August nahm ich eine neue Stelle an der Universität Tilburg in den Niederlanden an.

Mein Forschungs­schwerpunkt ist die maschinelle Über­setzung, kurz MT. Ins­besondere befasse ich mich mit der wechsel­seitigen Ab­hängigkeit von Daten und der Ziel­textqualität von MT-Engines, ich möchte also unter­suchen, welche Daten wir zum Trainieren von MT-Engines ver­wenden und wie sich diese Daten auf die Leistung aus­wirken. Zu meinen weiteren Arbeits­feldern und Interessens­gebieten gehören Qualitäts­schätzungen, Rück­übersetzungen und der Diskurs zum Thema maschinelle Übersetzung.

Was für einen Diskurs meinen Sie?

Es geht dabei vor allem um die Kon­sistenz und Ko­härenz von Doku­menten, die über­setzt werden. Heutige MT-Engines ar­beiten auf Satz­ebene, sie über­setzen also immer nur einen Satz auf einmal. Dadurch können jedoch im Kon­text ver­borgene In­formationen und damit ein Teil der Be­deutung des Dokuments ver­loren gehen. Wir unter­suchen, wie sich Kontext in eine (auf Satz­ebene ar­beitende) MT-Engine ein­binden lässt, und wollen heraus­finden, wie man die Kohärenz von Dokumenten er­halten kann, ohne dass zum Zeit­punkt der Über­setzung das gesamte Dokument ver­arbeitet wird.

Aktuell scheint es viele ver­schiedene Forschungs­trends hin­sichtlich der neuronalen maschinellen Über­setzung (NMT) zu geben. Welche Trends sind Ihrer Meinung nach am wichtigsten und warum?

Ein Trend, der zurzeit in der MT-Branche immer be­deutender wird, sind synthetische Daten. Normaler­weise wird eine MT-Engine mit einem Parallel­korpus trainiert. Das heißt, man ver­wendet beispiels­weise englische Quell­daten und deutsche Ziel­daten, wobei letztere eine Über­setzung der ersteren sind. Für einige Sprach­paare liegen jedoch nicht genügend Parallel­daten vor, sodass keine neue MT-Engine trainiert werden kann.

Innerhalb derselben geo­grafischen Region oder in aneinander­grenzenden Regionen können mehrere Sprachen in Ver­wendung sein, zum Beispiel Amharisch und Tingrinya in Äthiopien oder ver­schiedene indische Sprachen, aber es gibt nicht genug (oder manchmal gar keine) Parallel­daten in aus­reichender Qualität, um neuronale MT-Engines zu trainieren. Um dieses Problem zu lösen, generieren Forscher auf der Grund­lage ein­sprachiger Daten synthetische Parallelkorpora.

Eine Möglichkeit ist etwa die Rück­übersetzung – ein Thema, mit dem ich mich seit einiger Zeit befasse. Von Rück­übersetzung spricht man, weil man auf ein­sprachige Daten in der Ziel­sprache zurückgreift und dann ver­sucht, diese in die Aus­gangs­sprache zu über­setzen. Rück­übersetzung ist also der Prozess des Über­setzens ein­sprachiger Daten mithilfe einer vor­handenen MT-Engine, auch wenn diese qualitativ nicht optimal ist. Die MT-Ausgabe wird dann als Pseudo­quelle für einen (synthetischen) Parallel­korpus ver­wendet, während die ur­sprünglichen ein­sprachigen Daten als Ziel­daten dienen.

Wissenschaftliche Unter­suchungen haben er­geben, dass eine Engine, die mit einer Mischung aus realen Parallel­daten und rück­übersetzten – wenn­gleich oft minder­wertigen – Daten trainiert wird, eine deutlich höhere Übersetzungs­leistung er­reichen kann als eine Engine, die nur mit realen Parallel­daten trainiert wird.

In unserer jüngsten Forschungs­arbeit, Selecting Backtranslated Data from Multiple Sources for Improved Neural Machine Translation (Zur Ver­besserung der neuronalen maschinellen Über­setzung rück­übersetzte Daten aus mehreren Quellen aus­wählen), einem Gemeinschafts­projekt von Xabier Soto (UPV/EHU), Alberto Poncelas, Andy Way (DCU/ADAPT) und mir, haben wir unter­schiedliche Engines zum Generieren rück­übersetzter Daten unter­sucht: regel­basierte MT, aus­drucks­basierte statistische MT und neuronale MT (sowohl mit RNN- als auch mit transformer­basierter Architektur). Als Nächstes optimierten wir einen hoch­modernen Daten­auswahl-Algorithmus für unsere Zwecke, um eine Teil­menge der rück­übersetzten Daten aus den einzelnen Engines aus­wählen zu können. Anhand dieser optimierten bzw. reduzierten Menge an synthetischen Parallel­daten sowie einiger realer Parallel­daten trainierten wir neue Transformer Engines mit ver­mindertem Trainings­aufwand und hoher Übersetzungs­leistung. Unser Artikel wurde auf der dies­jährigen ACL-Konferenz präsentiert und steht unter https://www.aclweb.org/anthology/2020.acl-main.359.pdf zum Abruf bereit.

Schon seit einer Weile ist von auto­matischem Post-Editing (APE) die Rede. Können Sie uns mehr darüber verraten?

Angenommen, wir haben einen Satz in Sprache 1 und lassen ihn maschinell in Sprache 2 übersetzen. Übersetzungs­fehler wird es immer geben, und auto­matisches Post-Editing (APE) zielt darauf ab, solche Fehler ohne die Hilfe eines mensch­lichen Post-Editors zu korrigieren. Grob ver­allgemeinert über­setzt eine APE-Engine aus Sprache 2, die einige Fehler enthält, wieder zurück in Sprache 2. Dabei versucht die Engine, fehler­hafte Text­abschnitte mit korrekten Text­abschnitten ab­zugleichen. Oder anders gesagt: Eine APE-Engine nimmt fehler­haften Text und übersetzt diese in­korrekten Sätze oder ordnet sie fehler­freien Sätzen derselben Sprache zu.

Neueste APE-Engines basieren auf neuronalen An­sätzen (was oft als neuronales Post-Editing oder NPE bezeichnet wird) und ver­suchen, sys­tematische Fehler zu minimieren. Dadurch sollen Post-Editoren ent­lastet werden, die sich dann nicht immer wieder mit den­selben Fehlern herum­schlagen müssen und sich statt­dessen auf wichtigere und kreativere Aspekte des Über­setzens konzentrieren können.

Wie schneidet das auto­matische Post-Editing statistisch-maschinell über­setzter Texte gegen­über neuronaler maschineller Über­setzung ab, sowohl im Hin­blick auf die Über­setzung als auch das Post-Editing?

Beide Technologien – statistische maschinelle Über­setzung (SMT) und neuronale maschinelle Über­setzung (NMT) – haben ihre Vor- und Nachteile, doch lassen sie sich kom­binieren, um bessere Er­gebnisse zu er­zielen. Das Post-Editing von SMT-Output mittels einer NMT-Engine mit dem Ziel, Satzbau-, Sprachfluss- und ähnliche Pro­bleme zu be­heben, hat sich als sehr effektiv erwiesen.

Bei einer Reihe von Experimenten, die wir 2019 durch­führten, ver­besserte sich der Sprach­fluss um 40 %. Dies be­deutet natürlich nicht, dass wir damit die Qualität einer Human-Übersetzung er­reicht hätten – es gibt nach wie vor einige Probleme zu lösen –, aber wir konnten immerhin einige lästige Fehler ausmerzen.

Setzt man eine SMT-Engine für die Über­setzung und eine NMT-Engine für das Post-Editing ein, ver­bessert dies die ur­sprüngliche SMT-Ausgabe. Kombiniert man hin­gegen zwei NMT-Engines mit­einander – also eines für die Über­setzung und eine APE-Engine, das auf derselben neuronalen Technologie beruht –, dann sind die Resultate weniger über­zeugend, da beide Engines dasselbe Prinzip anwenden. Aller­dings gibt es nach wie vor viele mit SMT ar­beitende Unter­nehmen, die einige dieser NMT-Ansätze an­wenden und so die Qualität ihres MT-Outputs ver­bessern können, ohne deshalb ihre SMT-Engines aus­sortieren und wieder bei Null anfangen zu müssen.

Zum Thema APE haben wir übrigens einen Artikel ge­schrieben, der erst letzten Monat im Machine Translation Journal ver­öffentlicht wurde. Er ist eine Ge­meinschafts­arbeit mit dem Microsoft-Team in Dublin von 2018/2019 und bietet interessante Ein­blicke in das APE in realen Anwendungs­fällen, darunter die Experimente, die ich schon er­wähnt hatte. Der Artikel heißt A roadmap to neural automatic post-editing: an empirical approach (Eine Roadmap zum neuronalen automatischen Post-Editing: einer empirischer Ansatz) und steht hier zur Ver­fügung. Ein weiterer Artikel zum Thema APE ist bereits in Arbeit und dürfte demnächst ebenfalls im Machine Translation Journal erscheinen.

Welche Ver­änderungen sehen Sie in den nächsten fünf Jahren auf die Welt der neuronalen maschinellen Übersetzung zukommen?

Ein Trend ist die mehr­sprachige MT, also das Zusammen­führen mehrerer Sprachen in neuronalen MT-Engines, damit An­wender mit einem einzigen NMT-Engine in be­liebige Sprachen über­setzen können. Diese Ent­wicklung ist wahr­scheinlich, weil wir unser Wissen aus ähnlichen Sprachen nutzen wollen, um die Über­setzung in andere Sprachen zu verbessern.

Dies ist eine sehr interessante, viel­versprechende Ent­wicklung, vor allem wenn es darum geht, hoch­wertige Übersetzungs­systeme für ressourcen­arme Sprach­paare oder für Not­fall­situationen mit Zeit­druck oder Daten­mangel bereit­zustellen.

Ein anderes Thema, das ich vor einigen Monaten mit einem ehe­maligen Mit­glied des ADAPT Centre diskutiert habe, sind hoch­personalisierte MT-Engines, die auf sehr per­sönlicher Ebene zwischen zwei Anwendern hin- und her­übersetzen können. Nehmen wir etwa an, Sie und ich würden dieses Gespräch in unserer jeweiligen Mutter­sprache führen – wir könnten dann eine hoch­spezialisierte Engine ein­setzen, das aus dem Ge­spräch sprecher­spezifische Informationen ab­leiten und parallel dazu sehr gut über­setzen würde.

Gibt es noch etwas, das Sie hinzufügen möchten?

Bei der maschinellen Über­setzung gibt es derzeit viele spannende Ent­wicklungen: Qualitäts­schätzung, automatisches Post-Editing, neue Technologie­trends, fort­schrittliche vor­trainierte Übersetzungs- und Sprachmodelle (BERT, XLM, GPT3) und so weiter. Ein Problem, für das es immer noch keine zufrieden­stellende Lösung gibt, ist die (maschinelle) Übersetzung von Terminologie, denn man muss einem Engine erst einmal bei­bringen, unter­nehmens­spezifische Termini wie Marken­namen korrekt zu über­setzen. Wenn beispiels­weise ein Automobil­unternehmen einen bestimmten Terminus ver­wendet, kann ein anderes Unter­nehmen für dasselbe Konzept einen ganz anderen Aus­druck benutzen. Wir müssen also sicher­stellen, dass die ein­gesetzten MT-Engines solche Unter­schiede er­kennen und richtig ver­arbeiten können.

Vielen Dank für das Gespräch!

Sehr gern!