Interview mit einem Experten: Wie misst man die MT-Qualität?

Wer die Qualität maschineller Übersetzungen (MT) verbessern möchte, braucht zunächst einmal ein geeignetes Maß für die MT-Qualität. Doch welche Metriken bieten sich zur MT-Einschätzung an und welchen Zwecken dienen diese?

Es lassen sich grob zwei verschiedene Ansätze unterscheiden: manuelle und automatisierte Einschätzungen. Eine umfassende manuelle Evaluation ist zwar oft die effektivste Lösung, allerdings auch subjektiv, zeitintensiv und teuer. Aus diesem Grund haben Branchenexperten standardisierte, automatisierte Metriken eingeführt, mit denen sich im großen Stil messen lässt, wie gut die MT-Ausgabe ist. Diverse Studien haben gezeigt, dass die Ergebnisse dieser Metriken sogar denen einer manuellen Evaluation nahekommen können.

Mit dem Aufkommen neuronaler maschineller Übersetzungen (NMT) ist der Bedarf an datengestützten Methoden zur Messung der MT-Qualität noch weiter gestiegen. Da NMT im Vergleich zur statistischen maschinellen Übersetzung (SMT) deutlich verschiedene Ergebnisse liefert, forschen Branchenexperten an neuen Metriken zur exakteren Einschätzung der NMT-Ausgabe.

Über den aktuellen Stand dieser Bemühungen haben wir mit unserem Senior Solutions Architect Miklós Urbán gesprochen.

Beginnen wir mit einem Überblick über die automatisierten Metriken, die derzeit zum Einsatz kommen. Welche davon verwenden wir bei RWS Moravia?

Es gibt da eine ganze Reihe, aber wir verwenden hauptsächlich zwei. Da wäre erstens der BLEU Score, die erste Metrik überhaupt, die in der Branche breite Anwendung fand. Diese Metrik basiert auf dem Vergleich vorhandener Übersetzungen. Angenommen, eine Ausgangstextprobe wird zweimal übersetzt: einmal von Menschen und einmal mithilfe von MT. Der BLEU Score ist dann das Verhältnis der Wörter in der maschinellen Übersetzung, die auch in der manuellen Übersetzung – der sogenannten „goldenen Referenz“ – auftauchen.

Als sich der BLEU Score vor 10 bis 15 Jahren verbreitete, stieß er überall auf große Akzeptanz, weil er einer manuellen Evaluation der Qualität von Übersetzungen am nächsten kam. Auch heute noch ist er sehr beliebt, obwohl mittlerweile einige Nachteile bekannt sind. Beispielsweise kommt er nicht gut mit Synonymen oder grammatischen Wortformen zurecht. Außerdem vermittelt er kein ausgewogenes Bild, da er nur in eine Richtung prüft: Er gleicht die MT-Ausgabe mit der manuellen Referenzübersetzung ab.

Zweitens nutzen wir eine Metrik namens METEOR. Die METEOR-Algorithmen sind nuancierter, da sie MT- und manuelle Übersetzungsergebnisse in beide Richtungen vergleichen und überdies linguistische Merkmale berücksichtigen. BLEU kann Wörter nur in genau der Form, in der sie im Text erscheinen, abgleichen. METEOR hingegen erkennt auch sprachliche Varianten. Die Wörter „fahren“ und „fährt“ würden beim BLEU Score daher als zwei Wörter zählen, wohingegen METEOR sie aufgrund des gemeinsamen Stamms als ein Wort erkennt.

Daher setzen wir METEOR generell häufiger ein als BLEU. Solche Nuancen können schließlich Auswirkungen auf die Präzision der Qualitätsmessung haben.

Die Metriken BLEU und METEOR messen also den Unterschied zwischen MT und manueller Übersetzung. Welche Metriken gibt es noch? Funktionieren sie nach demselben Prinzip?

Automatisierte Metriken dienen noch einem weiteren Zweck, nämlich zur Messung des Aufwandes durch die Post-Editoren – also die Menschen, die die MT-Ausgabe prüfen und bearbeiten, um Ungenauigkeiten zu beseitigen. Dazu wird der Unterschied zwischen der ursprünglichen MT-Ausgabe und dem Ergebnis des Post-Editings gemessen, genauer gesagt die Anzahl der Änderungen, wie zum Beispiel gelöschte, ersetzte und hinzugefügte Wörter. Anhand einer Formel lässt sich die Zahl solcher Änderungen berechnen, das Resultat ist dann ein numerischer Wert.

Mit welchen Metriken messen wir diesen Aufwand?

Auch hierfür verwenden wir zwei verschiedene Metriken. Eine davon heißt Levenshtein-Distanz und dient zur Berechnung der Differenz zwischen der MT-Ausgabe und der durch Post-Editing nachbearbeiteten Übersetzung. Daran lässt sich ablesen, was der Post-Editor mit der ursprünglichen MT-Ausgabe gemacht hat. Nehmen wir an, die maschinelle Übersetzung lautet „der Esel bellt“ und der Post-Editor ändert dies zu „der Hund bellt“. Der Unterschied wäre acht, weil die vier Buchstaben von „Esel“ gelöscht und die vier Buchstaben von „Hund“ eingefügt wurden. Der Wert acht wird dann durch die Anzahl der Buchstaben im gesamten Segment geteilt, sodass ein Prozentwert herauskommt.

Als zweite Metrik zur Beurteilung des manuellen Post-Editing-Aufwands nutzen wir den TER Score. Während die Levenshtein-Distanz auf Zeichenebene ermittelt wird – also die Anzahl der gelöschten, hinzugefügten oder ersetzten Zeichen wiedergibt –, stellt der TER Score einen Versuch dar, auch die Art der vorgenommenen Änderungen zu berücksichtigen. In die Berechnung fließt hier nicht die Anzahl der geänderten Buchstaben, sondern die Anzahl der Bearbeitungen ein.

Betrachten wir noch einmal das Beispielpaar „der Esel bellt“ und „der Hund bellt“. Die Levenshtein-Distanz zählt hier vier gelöschte und vier eingefügte Buchstaben. Bei der TER-Berechnung wird dagegen nur eine einzige Ersetzung gezählt: Eine Zeichenfolge ersetzt eine andere. Die ersetzte Zeichenfolge umfasst vier Zeichen, also wird eine einzige Bearbeitung mit einer Länge von vier Zeichen berechnet.

Nach der Levenshtein-Methode kann es passieren, dass der Aufwand für einzelne Bearbeitungen überschätzt wird – beispielsweise, wenn in einem langen Satz hier und da ein oder zwei Buchstaben ersetzt werden. Zwischen dieser Vorgehensweise und dem Überschreiben ganzer Wörter lässt sich mit Levenshtein nicht unterscheiden. Deshalb ist TER in diesem Fall zuverlässiger und stellt den tatsächlichen Arbeitsaufwand beim Post-Editing besser dar.

Wie lässt sich mit diesen automatisierten Metriken die MT-Qualität bewerten?

Nun, automatisierte Bewertungen versuchen, das Ergebnis einer manuellen Evaluation zu imitieren. Doch letzten Endes können automatisierte Bewertungen lediglich den prozentualen Unterschied zwischen der MT-Ausgabe und einer manuellen Übersetzung oder einer durch Post-Editing nachbearbeiteten MT-Übersetzung wiedergeben.

Die manuelle Evaluation kann jedoch weitaus detaillierter ausfallen. Menschen können eine ausführliche Einschätzung der MT-Qualität abgeben. Als Orientierungshilfe für manuelle Evaluation nutzen wir in der Regel das TAUS DQF-Benchmarking. Hierbei erhalten wir einen detaillierten Überblick über verschiedene Facetten der sprachlichen Qualität, zum Beispiel Genauigkeit (Wahrung der Textaussage) und Sprachfluss (Rechtschreibung und Grammatik). Der Zahlenwert bei automatisierten Metriken bezieht sich eher auf die Genauigkeit.

Der Sprachfluss ist deutlich schwieriger zu messen, weil er von subjektiven sprachlichen Vorlieben abhängt. Allerdings könnte man auch automatisierte Metriken für die Bewertung des Sprachflusses einsetzen. Dazu müsste man diese so weiterentwickeln, dass sie zusammenstehende Wortgruppen untersuchen, sogenannte n-Gramme („n“ steht hier für die Anzahl der aufeinanderfolgenden Wörter). Die theoretische Annahme hierzu lautet: Je mehr Wörter sowohl in der maschinellen als auch in der manuellen Übersetzung in derselben Reihenfolge stehen, desto besser ist der Sprachfluss der MT-Ausgabe.

Hast du noch einen Schlussgedanken zum Thema MT-Bewertung?

Wenn ich mir eine Sache wünschen könnte, wäre das die Entwicklung einer standardisierten, automatisierten Metrik, die sich reproduzieren lässt. Sprich: Derselbe Algorithmus liefert für jeden Text denselben numerischen Wert und ist idealerweise auch noch so flexibel, dass Ergebnisse langfristig nachverfolgt werden können. So könnten wir die Leistung von MT-Engines zuverlässiger vergleichen.

Bei Technologien, die auf maschinellem Lernen beruhen, ist Subjektivität immer ein zentrales Problem. Das ist bei MT nicht anders: Jede Metrik basiert letztlich auf gewissen menschlichen Vergleichsmaßstäben, sei es nun eine manuelle Übersetzung, die als Goldstandard dient, oder eine MT-Übersetzung mit Post-Editing. Dieser menschliche Einfluss variiert je nach Person. Aus diesem Grund hat der Ergebnisvergleich über verschiedene Sprachen hinweg seine Grenzen. Dasselbe gilt für Vergleiche über einen längeren Zeitraum.

Nehmen wir beispielsweise an, dass die Qualität der MT-Engine eines Kunden anhand eines Textkorpus bewertet wird, der zum jeweiligen Zeitpunkt auf dem aktuellen Stand war. Doch während wir diese Engine im Übersetzungsprozess einsetzen, entwickelt sich das Geschäft des Kunden weiter – es kommen neue Produkte oder Funktionen und damit auch neuer Content hinzu. Ist die MT-Engine dann immer noch so gut wie zu Beginn ermittelt? Oder hat sich die Qualität inzwischen verschlechtert? Wenn wir eine neue Engine mit neuen Übersetzungen trainieren, ist diese neue Engine dann besser, wenn wir sie anhand des anfänglichen Textkorpus bewerten? Dieser Textkorpus wäre dann ja nicht mehr ganz neu – oder anders gesagt, er wäre nur für den Zeitpunkt seiner Erstellung objektiv aussagekräftig. Mit solchen Fragen beschäftigen sich unsere Experten tagtäglich.

Letztlich klingen die Fragen, die wir mit automatisierten Metriken beantworten möchten, einfacher, als sie tatsächlich sind: „Welche MT-Engine ist besser?“ oder „Ist die Engine gut genug, damit MT mit Post-Editing effizienter ist als eine manuelle Übersetzung?“ Und falls ja: „Wie groß ist der Effizienzvorteil?“ Angesichts der Schwächen der aktuell verfügbaren Metriken müssen wir die Ergebnisse kritisch betrachten, wenn wir sie im Kontext auswerten. Daher wäre eine stärkere Standardisierung automatisierter MT-Messungen eine gute Sache, solange dabei die sich ständig ändernden Anforderungen unserer Kunden berücksichtigt würden.

Ohne Zweifel werden automatisierte Metriken auch weiterhin beeinflussen, welche Engine zum Einsatz kommt, doch das letzte Wort haben immer noch Menschen. Dies bringt Probleme mit sich, da bei der manuellen Evaluation verschiedene methodische Ansätze Anwendung finden.

Trotz aller Automatisierung kommt Menschen nach wie vor eine wichtige Aufgabe zu: Sie müssen die oben beschriebenen Metriken und ihre Rolle im Vergleich von MT-Systemen interpretieren. Der Bereich der MT-Bewertung entwickelt sich ebenso schnell wie die MT-Systeme selbst. Ihr Sprachdienstleister sollte Sie daher beraten, wie Sie automatisierte Metriken und Methoden der manuellen Evaluation für Ihre Sprachen, Content-Typen und Anwendungsfälle optimal nutzen können.

Zuletzt interessiert uns noch: Welche Metrik bevorzugt Ihr Lokalisierungsteam? Und warum? Wir freuen uns auf Ihre Kommentare unten auf dieser Seite. Und natürlich sind wir für Sie da, wenn Sie Strategien für die maschinelle Übersetzung besprechen möchten.

RWS Language Services Blog (German) ›

Interview mit einem Experten: Wie misst man die MT-Qualität?