Wie Sie die richtige MT-Engine für Ihre Projekte bereitstellen

In einem Blogartikel diskutierten wir kürzlich, wie sich Projekte für die maschinelle Übersetzung (MT) umsetzen lassen, angefangen bei der Analyse des für die MT geeigneten Contents bis zur Bereitstellung der MT-Engine.

Doch die Auswahl der richtigen Engine für Ihre Projekte ist als Prozessschritt von so wesentlicher Bedeutung, dass sie eine ausführlichere Betrachtung verdient. Angesichts der zahlreichen – in die Dutzenden gehenden – Optionen, die am Markt verfügbar sind, stellt sich die Frage: Auf welche Funktionen kommt es an? Wie finde ich mich im Dschungel der Angebote zurecht?

Schon in unserem letzten Beitrag hatten wir erwähnt, dass nicht jede Engine für jede Art von Aufgabe geeignet ist. Daher ist enge Abstimmung mit dem Sprachdienstleister (LSP) wichtig, damit Sie die Projekt- und insbesondere die Qualitätsanforderungen gemeinsam im Voraus definieren können.

Der LSP sollte Sie auch um einen Textkorpus zu Testzwecken bitten, bestehend aus Originaltexten und von professionellen Linguisten angefertigten Übersetzungen. Die Originaltexte werden dann mithilfe der MT-Engine probeweise übersetzt. Anschließend wird die MT-Ausgabe mit den manuellen Übersetzungen abgeglichen, um die MT-Qualität beurteilen zu können.

Wie also bestimmt man die Engines, die für einen Test infrage kommen? Im Folgenden erläutern wir, wie RWS Moravia den Auswahlprozess angeht.

1. Prüfen, was bereitgestellt werden kann

Zunächst müssen Engines gefunden werden, die die technischen Voraussetzungen für einen Test erfüllen. Dazu prüfen Sie erst einmal, welche Engines Ihr Translation-Management-System (TMS) überhaupt unterstützt. Sollten Sie kein TMS haben, können Sie diesen Schritt überspringen.

Dafür gibt es aber einige andere Punkte, die bei MT-Engines zu beachten sind, darunter folgende:

Engine-Typ: Die beiden wichtigsten Engine-Typen heutzutage heißen neuronale maschinelle Übersetzung (NMT) und statistische maschinelle Übersetzung (SMT). Wissenschaftliche Untersuchungen legen nahe, dass NMT-Engines, obwohl es sie noch gar nicht lange gibt, besser abschneiden als SMT-Engines – und ständig besser werden. SMT kommt zwar noch gelegentlich zum Einsatz, doch Technologiegiganten wie Google und Microsoft stellen ihre Prozesse in hohem Tempo auf NMT um.
Datenschutz: Nicht alle Anbieter von MT-Engines garantieren die Sicherheit der Daten, anhand derer die MT trainiert wird. Stattdessen kann es sein, dass sie diese Daten für sich beanspruchen, was bei einigen unserer Kunden für Unbehagen sorgt. Dagegen sichern andere Anbieter, wie Microsoft und Google, für zahlungspflichtige Dienste ausdrücklich zu, dass Kundendaten nur für Kundenzwecke verwendet werden.
„Basis“-Framework: Die meisten MT-Engine-Anbieter nutzen eine „Basis“-Engine, das heißt eine generische Standard-Engine, die noch nicht auf markenspezifische Stil- oder Terminologievorgaben „trainiert“ wurde, sondern einfach auf frei verfügbare Daten aus dem Internet zurückgreift. Andere Anbieter, darunter Globalese, stellen eine Lösung mit einer „leeren“ Engine bereit, die anhand konkreter Inhalte trainiert werden muss.

Insgesamt haben Sie also drei Auswahlmöglichkeiten:

Eine leere Engine eignet sich, wenn Sie die Engine von Beginn an selbst „anlernen“ möchten, wofür Sie jedoch sehr umfangreiche Trainingsdaten benötigen.
Eine Basis-Engine enthält bereits generische Sprachdaten, die Sie um eigenen Content im markenspezifischen Stil ergänzen können. Dafür sind weniger Trainingsdaten notwendig. Diese Option ist unser Favorit, da sie am leichtesten umzusetzen ist. Die meisten unserer Kunden haben gerade genug Trainingsdaten, um damit eine Basis-Engine weiterzuentwickeln und somit das Ergebnis gegenüber der untrainierten Basis-Engine zu verbessern. Für einen kompletten Neuanfang mit einer leeren Engine reicht die Menge der verfügbaren Trainingsdaten dagegen meist nicht.
Und schließlich können Sie eine generische Engine im Istzustand verwenden, für die gar keine Trainingsdaten erforderlich sind.

Berücksichtigt man all diese Punkte und die definierten Anforderungen, lässt sich die Zahl der geeigneten MT-Engines oft auf fünf oder sechs eingrenzen. Nun ist es an der Zeit, die ausgewählten Engines in der Praxis zu testen.

2. Automatisierte Evaluationen durchführen

Zur Evaluation der Ausgabequalität einer MT-Engine gibt es zwei verschiedene Methoden: automatisiert und manuell. Wir beginnen immer mit Ersterer.

Eine der gängigsten Metriken der automatisierten Evaluation, die auch wir anwenden, heißt BLEU (Bilingual Evaluation Understudy). Beim BLEU Score handelt es sich um einen Algorithmus für den Vergleich der Ähnlichkeit zwischen einer maschinellen und einer manuellen Übersetzung. Je höher der Score, desto näher kommt die MT-Ausgabe der manuellen Übersetzung, das heißt, desto besser ist die Qualität der Engine. Es versteht sich von selbst, dass der BLEU Score höher ausfällt, wenn für die Engine umfangreiche Trainingsdaten zur Verfügung stehen.

Theoretisch kann der BLEU Score bis zu 100 betragen, doch da auch zwei Menschen nie exakt gleich übersetzen, ist schon ein Wert von 75 als sehr hoch zu betrachten. Unsere Toleranzgrenze liegt etwa bei 50: Engines, die diesen Wert unterschreiten, werden ausgeschlossen, da sie den Übersetzungsprozess voraussichtlich nicht effizienter gestalten. Engines, die 50 oder mehr erreichen, können weiter getestet werden.

3. Engines trainieren

Als Nächstes trainieren wir die Engines für den Umgang mit branchen- oder marktspezifischer Terminologie, wofür wir Daten aus Ihrem Translation Memory (TM) einsetzen.

Doch was tun, wenn kein TM vorhanden ist, etwa beim Neueinstieg in einen Markt?

In diesem Fall beginnen wir mit der besten generischen (Basis-)Engine, die für die jeweilige Sprachkombination verfügbar ist. Nachdem die maschinelle Übersetzung von einem menschlichen Post-Editor nachgebessert wurde (mehr zum Post-Editing, siehe unten), sind die Daten bereit für das Training.

Außerdem experimentieren wir seit Kurzem mit neuen Methoden, Trainingsdaten zu erstellen. So können wir beispielsweise mit dem Datenabgleichdienst von TAUS Quelltexte hochladen, die dann vom System analysiert werden. Anschließend laden wir aus der TAUS-Datenbank Trainingsdaten herunter, die zum jeweiligen Content und zur Zielsprache passen.

Nachdem wir die Engines trainiert haben, testen wir sie erneut anhand Ihrer Quelltexte und ermitteln per automatisierter Evaluation, welche Engine am besten abschneidet. Am Ende bleiben in der Regel zwei oder drei Kandidaten übrig, die nun noch einmal manuell evaluiert werden..

4. Manuelle Evaluation durchführen

In dieser Phase setzen wir unsere ganze Expertise und Erfahrung ein, um die Engine (oder Kombination aus mehreren Engines) zu ermitteln, die am besten zu Ihrem Content passt. Dazu analysieren wir erst die „Rohqualität“ der MT, das heißt den unbearbeiteten Engine-Output ohne Review oder Editing durch einen Menschen.

Danach führen wir ein Post-Editing (PE) durch und messen dessen Effektivität. (PE verlangt andere Fähigkeiten als das Übersetzen.) Für den Abgleich zwischen roher und per PE nachbearbeiteter MT-Ausgabe nutzt RWS Moravia ein unternehmenseigenes Tool. Als Metrik dient dabei beispielsweise die Anzahl der Bearbeitungen oder der Zeitaufwand des Post-Editors zum Editieren der rohen MT-Ausgabe. Je weniger der Post-Editor eingreifen muss, desto besser ist die Engine.

Am Ende dieser Phase haben wir die Ergebnisse der automatisierten und der manuellen Evaluation verglichen, sodass in der Regel ein einzelner MT-Anbieter als Sieger feststeht.

5. Engine(s) auswählen und Pilotprojekt durchführen

Mitunter ist es sinnvoll, für unterschiedliche Zwecke oder Sprachen mehrere Engines auszuwählen. Zum Beispiel könnte es sein, dass für Chinesisch Google und für Französisch Microsoft bessere Ergebnisse liefert. Denkbar wäre auch, dass eine Engine besser für das Post-Editing und eine andere besser für die unbearbeitete MT geeignet ist, sofern Letztere für einen bestimmten Content-Typ ausreichend ist.

So oder so gilt: Sobald Sie eine oder mehrere Engines ausgewählt haben, beginnen wir mit dem eigentlichen Training. Dazu speisen wir weitere Trainingsdaten ein, um bessere Resultate zu erzielen. Dies ist keine exakte Wissenschaft, denn das Ergebnis ist immer kundenspezifisch und hängt letztlich von Thema, Content-Typ und Sprachkombination ab. Das Trainieren einer Engine anhand entsprechender Daten setzt außerdem einiges Herumprobieren voraus.

Ist die Engine bereit, können wir zum Pilotprojekt übergehen. Auch hier kann es wieder zu abweichenden Ergebnissen kommen. Es ist nicht auszuschließen, dass eine Engine mit hohem BLEU Score am Ende doch nicht für Ihren speziellen Zweck geeignet ist, sodass wir den MT-Anbieter wechseln oder das Training wiederholen müssen. Sollte das Pilotprojekt aber erfolgreich verlaufen, dann kann die Engine endlich den Betrieb aufnehmen.

Fazit

Wenn Sie den Entschluss getroffen haben, dass maschinelle Übersetzung für Ihre Projekte infrage kommt, haben Sie die Qual der Wahl. Ein LSP kann Ihnen jedoch mit seiner umfangreichen Erfahrung dabei helfen, aus der langen Liste der Kandidaten diejenigen Engines herauszufiltern, die am ehesten zu Ihrem Content, Umfang und Budget passen.

Die „Herausforderung“ – in Anführungszeichen, weil uns MT-Experten das Experimentieren gar nichts ausmacht – besteht dann darin, verschiedene Optionen durchzuspielen. Selbst wenn wir schon eine Vorahnung davon haben, wie eine Engine abschneiden wird, müssen wir, um ganz sicher zu sein, die MT-Leistung im Laufe der Zeit messen und überwachen. Schließlich wollen wir die beste Lösung für Sie ermitteln, ohne Kompromisse.

Uns ist bewusst, dass es hier vieles zu beachten gibt. Doch dafür ist RWS Moravia da: Wir begleiten Sie gern bei jedem einzelnen Auswahl- und Bereitstellungsschritt, bis die Resultate den Ansprüchen Ihres Unternehmens und Ihrer globalen Kundschaft genügen.

RWS Language Services Blog (German) ›