Interview mit einem Experten: Wie misst man die MT-Qualität?

Wer die Quali­tät maschineller Über­setzungen (MT) ver­bessern möchte, braucht zu­nächst ein­mal ein ge­eignetes Maß für die MT-Qualität. Doch welche Metriken bie­ten sich zur MT-Ein­schätzung an und welchen Zwecken dienen diese?

Es lassen sich grob zwei ver­schiedene An­sätze unter­scheiden: manuelle und auto­matisierte Ein­schätzungen. Eine um­fassende manuelle Evaluation ist zwar oft die effektivste Lö­sung, aller­dings auch sub­jektiv, zeit­intensiv und teuer. Aus diesem Grund haben Branchen­experten standardisierte, auto­matisierte Metriken ein­geführt, mit denen sich im großen Stil messen lässt, wie gut die MT-Ausgabe ist. Diverse Studien haben ge­zeigt, dass die Er­gebnisse dieser Metriken sogar denen einer manuellen Evaluation nahe­kommen können.

Mit dem Auf­kommen neuronaler maschineller Über­setzungen (NMT) ist der Be­darf an daten­gestützten Methoden zur Messung der MT-Qualität noch weiter ge­stiegen. Da NMT im Ver­gleich zur statistischen maschinellen Über­setzung (SMT) deutlich ver­schiedene Er­gebnisse liefert, for­schen Branchen­experten an neuen Metriken zur exakteren Ein­schätzung der NMT-Ausgabe.

Über den aktuellen Stand dieser Be­mühungen haben wir mit unserem Senior Solutions Architect Miklós Urbán ge­sprochen.

Beginnen wir mit einem Überblick über die auto­matisierten Metriken, die der­zeit zum Ein­satz kommen. Welche davon ver­wenden wir bei RWS Moravia?

Es gibt da eine ganze Reihe, aber wir ver­wenden haupt­sächlich zwei. Da wäre erstens der BLEU Score, die erste Metrik über­haupt, die in der Branche breite An­wendung fand. Diese Metrik basiert auf dem Ver­gleich vor­handener Über­setzungen. An­genommen, eine Ausgangs­textprobe wird zwei­mal über­setzt: einmal von Menschen und einmal mit­hilfe von MT. Der BLEU Score ist dann das Ver­hältnis der Wörter in der maschinellen Über­setzung, die auch in der manuellen Über­setzung – der so­genannten „goldenen Referenz“ – auf­tauchen.

Als sich der BLEU Score vor 10 bis 15 Jahren ver­breitete, stieß er über­all auf große Akzep­tanz, weil er einer manuellen Evaluation der Qualität von Über­setzungen am nächsten kam. Auch heute noch ist er sehr be­liebt, obwohl mittler­weile einige Nach­teile be­kannt sind. Beispiels­weise kommt er nicht gut mit Synonymen oder grammatischen Wort­formen zurecht. Außerdem ver­mittelt er kein aus­gewogenes Bild, da er nur in eine Richtung prüft: Er gleicht die MT-Ausgabe mit der manuellen Referenz­übersetzung ab.

Zweitens nutzen wir eine Metrik namens METEOR. Die METEOR-Algorithmen sind nuancierter, da sie MT- und manuelle Über­setzungs­ergebnisse in beide Richtungen ver­gleichen und über­dies linguistische Merk­male be­rück­sichtigen. BLEU kann Wörter nur in genau der Form, in der sie im Text er­scheinen, ab­gleichen. METEOR hin­gegen er­kennt auch sprach­liche Varianten. Die Wörter „fahren“ und „fährt“ würden beim BLEU Score daher als zwei Wörter zählen, wohin­gegen METEOR sie auf­grund des ge­meinsamen Stamms als ein Wort erkennt.

Daher setzen wir METEOR generell häufiger ein als BLEU. Solche Nuancen können schließ­lich Aus­wirkungen auf die Prä­zision der Qualitätsm­essung haben.

Die Metriken BLEU und METEOR messen also den Unter­schied zwischen MT und manueller Über­setzung. Welche Metriken gibt es noch? Funktionieren sie nach demselben Prinzip?

Auto­matisierte Metriken dienen noch einem weiteren Zweck, nämlich zur Messung des Auf­wandes durch die Post-Editoren – also die Menschen, die die MT-Ausgabe prüfen und be­arbeiten, um Un­genauig­keiten zu be­seitigen. Dazu wird der Unter­schied zwischen der ur­sprünglichen MT-Ausgabe und dem Er­gebnis des Post-Editings ge­messen, genauer ge­sagt die An­zahl der Änderungen, wie zum Bei­spiel ge­löschte, er­setzte und hinzu­gefügte Wörter. Anhand einer Formel lässt sich die Zahl solcher Änderungen berechnen, das Resultat ist dann ein numerischer Wert.

Mit welchen Metriken messen wir diesen Aufwand?

Auch hierfür verwenden wir zwei verschiedene Metriken. Eine davon heißt Levenshtein-Distanz und dient zur Be­rechnung der Differenz zwischen der MT-Aus­gabe und der durch Post-Editing nach­bearbeiteten Über­setzung. Daran lässt sich ab­lesen, was der Post-Editor mit der ur­sprünglichen MT-Ausgabe ge­macht hat. Nehmen wir an, die maschinelle Über­setzung lautet „der Esel bellt“ und der Post-Editor ändert dies zu „der Hund bellt“. Der Unterschied wäre acht, weil die vier Buchstaben von „Esel“ gelöscht und die vier Buch­staben von „Hund“ ein­gefügt wur­den. Der Wert acht wird dann durch die Anzahl der Buch­staben im ge­samten Segment geteilt, sodass ein Prozentwert herauskommt.

Als zweite Metrik zur Be­urteilung des manuellen Post-Editing-Aufwands nutzen wir den TER Score. Während die Levenshtein-Distanz auf Zeichen­ebene er­mittelt wird – also die An­zahl der ge­löschten, hinzu­gefügten oder er­setzten Zeichen wieder­gibt –, stellt der TER Score einen Versuch dar, auch die Art der vor­genommenen Änderungen zu be­rück­sichtigen. In die Be­rechnung fließt hier nicht die Anzahl der ge­änderten Buch­staben, sondern die Anzahl der Bearbeitungen ein.

Betrachten wir noch ein­mal das Beispiel­paar „der Esel bellt“ und „der Hund bellt“. Die Levenshtein-Distanz zählt hier vier ge­löschte und vier ein­gefügte Buch­staben. Bei der TER-Be­rechnung wird da­gegen nur eine ein­zige Er­setzung ge­zählt: Eine Zeichen­folge er­setzt eine andere. Die er­setzte Zeichen­folge um­fasst vier Zeichen, also wird eine einzige Be­arbeitung mit einer Länge von vier Zeichen be­rechnet.

Nach der Levenshtein-Methode kann es passieren, dass der Auf­wand für einzelne Be­arbeitungen über­schätzt wird – beispiels­weise, wenn in einem langen Satz hier und da ein oder zwei Buch­staben er­setzt werden. Zwischen dieser Vorgehens­weise und dem Über­schreiben ganzer Wörter lässt sich mit Levenshtein nicht unter­scheiden. Deshalb ist TER in diesem Fall zu­verlässiger und stellt den tat­sächlichen Arbeits­aufwand beim Post-Editing besser dar.

Wie lässt sich mit diesen automatisierten Metriken die MT-Qualität bewerten?

Nun, auto­matisierte Be­wertungen ver­suchen, das Er­gebnis einer manuellen Evaluation zu imitieren. Doch letzten Endes kön­nen auto­matisierte Be­wertungen lediglich den pro­zentualen Unter­schied zwischen der MT-Ausgabe und einer manuellen Über­setzung oder einer durch Post-Editing nach­bearbeiteten MT-Übersetzung wieder­geben.

Die manuelle Evaluation kann jedoch weitaus detaillierter aus­fallen. Menschen können eine aus­führliche Ein­schätzung der MT-Qualität ab­geben. Als Orientierungs­hilfe für manuelle Evaluation nutzen wir in der Regel das TAUS DQF-Benchmarking. Hier­bei er­halten wir einen detaillierten Über­blick über ver­schiedene Facetten der sprach­lichen Qualität, zum Beispiel Genauig­keit (Wahrung der Text­aussage) und Sprach­fluss (Recht­schreibung und Grammatik). Der Zahlen­wert bei auto­matisierten Metriken be­zieht sich eher auf die Genauigkeit.

Der Sprachfluss ist deut­lich schwieriger zu messen, weil er von sub­jektiven sprach­lichen Vor­lieben ab­hängt. Aller­dings könnte man auch auto­matisierte Metriken für die Be­wertung des Sprach­flusses ein­setzen. Dazu müsste man diese so weiter­entwickeln, dass sie zusammen­stehende Wort­gruppen unter­suchen, sogenannte n-Gramme („n“ steht hier für die An­zahl der auf­einander­folgenden Wörter). Die theoretische An­nahme hierzu lautet: Je mehr Wörter sowohl in der maschinellen als auch in der manuellen Über­setzung in der­selben Reihenfolge stehen, desto besser ist der Sprachfluss der MT-Ausgabe.

Hast du noch einen Schluss­gedanken zum Thema MT-Bewertung?

Wenn ich mir eine Sache wünschen könnte, wäre das die Ent­wicklung einer standardisierten, auto­matisierten Metrik, die sich re­produzieren lässt. Sprich: Der­selbe Algorithmus liefert für jeden Text den­selben numerischen Wert und ist idealer­weise auch noch so flexibel, dass Er­gebnisse lang­fristig nach­verfolgt werden können. So könnten wir die Leistung von MT-Engines zuverlässiger vergleichen.

Bei Technologien, die auf maschinellem Lernen beruhen, ist Subjektivität immer ein zentrales Problem. Das ist bei MT nicht anders: Jede Metrik basiert letztlich auf gewissen mensch­lichen Ver­gleichs­maßstäben, sei es nun eine manuelle Über­setzung, die als Gold­standard dient, oder eine MT-Über­setzung mit Post-Editing. Dieser mensch­liche Ein­fluss variiert je nach Person. Aus diesem Grund hat der Er­gebnis­vergleich über ver­schiedene Sprachen hin­weg seine Grenzen. Dasselbe gilt für Ver­gleiche über einen längeren Zeitraum.

Nehmen wir beispiels­weise an, dass die Qualität der MT-Engine eines Kunden anhand eines Text­korpus be­wertet wird, der zum jeweiligen Zeit­punkt auf dem aktuellen Stand war. Doch während wir diese Engine im Über­setzungs­prozess einsetzen, entwickelt sich das Ge­schäft des Kunden weiter – es kommen neue Produkte oder Funk­tionen und damit auch neuer Content hinzu. Ist die MT-Engine dann immer noch so gut wie zu Beginn ermittelt? Oder hat sich die Qualität inzwischen ver­schlechtert? Wenn wir eine neue Engine mit neuen Übersetzungen trainieren, ist diese neue Engine dann besser, wenn wir sie anhand des anfänglichen Text­korpus bewerten? Dieser Text­korpus wäre dann ja nicht mehr ganz neu – oder anders gesagt, er wäre nur für den Zeitpunkt seiner Erstellung objektiv aussagekräftig. Mit solchen Fragen beschäftigen sich unsere Experten tagtäglich.

Letztlich klingen die Fragen, die wir mit auto­matisierten Metriken be­antworten möchten, ein­facher, als sie tat­sächlich sind: „Welche MT-Engine ist besser?“ oder „Ist die Engine gut genug, damit MT mit Post-Editing effizienter ist als eine manuelle Über­setzung?“ Und falls ja: „Wie groß ist der Effizienzvorteil?“ Angesichts der Schwächen der aktuell verfügbaren Metriken müssen wir die Er­gebnisse kritisch be­trachten, wenn wir sie im Kontext aus­werten. Daher wäre eine stärkere Standardisierung auto­matisierter MT-Messungen eine gute Sache, solange dabei die sich ständig ändernden Anforderungen unserer Kunden berücksichtigt würden.

Ohne Zweifel werden automatisierte Metriken auch weiterhin beeinflussen, welche Engine zum Einsatz kommt, doch das letzte Wort haben immer noch Menschen. Dies bringt Probleme mit sich, da bei der manuellen Evaluation verschiedene methodische Ansätze Anwendung finden.

Trotz aller Auto­matisierung kommt Menschen nach wie vor eine wichtige Auf­gabe zu: Sie müssen die oben be­schriebenen Metriken und ihre Rolle im Ver­gleich von MT-Systemen inter­pretieren. Der Bereich der MT-Bewertung ent­wickelt sich ebenso schnell wie die MT-Systeme selbst. Ihr Sprachdienstleister sollte Sie daher beraten, wie Sie auto­matisierte Metriken und Methoden der manuellen Evaluation für Ihre Sprachen, Content-Typen und Anwendungsfälle optimal nutzen können.

Zuletzt interessiert uns noch: Welche Metrik bevorzugt Ihr Lokalisierungs­team? Und warum? Wir freuen uns auf Ihre Kommentare unten auf dieser Seite. Und natürlich sind wir für Sie da, wenn Sie Strategien für die maschinelle Übersetzung besprechen möchten.