Wie Sie die richtige MT-Engine für Ihre Projekte bereitstellen

In einem Blog­artikel dis­kutierten wir kürz­lich, wie sich Pro­jekte für die ma­schinelle Über­setzung (MT) um­setzen lassen, an­gefangen bei der Analyse des für die MT ge­eigneten Contents bis zur Bereit­stellung der MT-Engine.

Doch die Aus­wahl der richtigen Engine für Ihre Pro­jekte ist als Prozess­schritt von so wesentlicher Be­deutung, dass sie eine aus­führlichere Be­trachtung ver­dient. An­gesichts der zahl­reichen – in die Dutzenden gehenden – Optionen, die am Markt ver­fügbar sind, stellt sich die Frage: Auf welche Funktionen kommt es an? Wie finde ich mich im Dschungel der An­gebote zurecht?

Schon in unserem letzten Bei­trag hatten wir er­wähnt, dass nicht jede Engine für jede Art von Auf­gabe ge­eignet ist. Daher ist enge Ab­stimmung mit dem Sprach­dienstleister (LSP) wichtig, damit Sie die Projekt- und insbesondere die Qualitäts­anforderungen ge­meinsam im Voraus definieren können.

Der LSP sollte Sie auch um einen Text­korpus zu Test­zwecken bitten, be­stehend aus Original­texten und von professionellen Linguisten an­gefertigten Über­setzungen. Die Original­texte werden dann mit­hilfe der MT-Engine probe­weise über­setzt. An­schließend wird die MT-Ausgabe mit den manuellen Über­setzungen ab­geglichen, um die MT-Qualität be­urteilen zu können.

Wie also bestimmt man die Engines, die für einen Test infrage kommen? Im Folgenden er­läutern wir, wie RWS Moravia den Auswahl­prozess angeht.

1. Prüfen, was bereitgestellt werden kann

Zunächst müssen Engines ge­funden werden, die die technischen Voraus­setzungen für einen Test er­füllen. Dazu prü­fen Sie erst ein­mal, welche Engines Ihr Translation-Management-System (TMS) über­haupt unter­stützt. Sollten Sie kein TMS haben, können Sie diesen Schritt über­springen.

Dafür gibt es aber einige andere Punkte, die bei MT-Engines zu beachten sind, darunter folgende:

  • Engine-Typ: Die beiden wichtigsten Engine-Typen heut­zutage heißen neuronale maschinelle Über­setzung (NMT) und statistische maschinelle Über­setzung (SMT). Wissen­schaftliche Unter­suchungen legen nahe, dass NMT-Engines, ob­wohl es sie noch gar nicht lange gibt, besser ab­schneiden als SMT-Engines – und ständig besser werden. SMT kommt zwar noch gelegentlich zum Ein­satz, doch Technologie­giganten wie Google und Microsoft stellen ihre Pro­zesse in hohem Tempo auf NMT um.
  • Datenschutz: Nicht alle An­bieter von MT-Engines garantieren die Sicher­heit der Daten, an­hand derer die MT trainiert wird. Statt­dessen kann es sein, dass sie diese Daten für sich be­anspruchen, was bei einigen unserer Kunden für Un­behagen sorgt. Dagegen sichern andere An­bieter, wie Microsoft und Google, für zahlungs­pflichtige Dienste aus­drücklich zu, dass Kunden­daten nur für Kunden­zwecke ver­wendet werden.
  • „Basis“-Framework: Die meisten MT-Engine-Anbieter nutzen eine „Basis“-Engine, das heißt eine generische Standard-Engine, die noch nicht auf marken­spezifische Stil- oder Terminologie­vorgaben „trainiert“ wurde, sondern einfach auf frei ver­fügbare Daten aus dem Inter­net zurück­greift. Andere An­bieter, darunter Globalese, stellen eine Lösung mit einer „leeren“ Engine bereit, die an­hand kon­kreter In­halte trainiert werden muss.

Insgesamt haben Sie also drei Auswahlmöglichkeiten:

  1. Eine leere Engine eig­net sich, wenn Sie die Engine von Be­ginn an selbst „an­lernen“ möchten, wofür Sie jedoch sehr umfang­reiche Trainings­daten benötigen.
  2. Eine Basis-Engine enthält bereits generische Sprach­daten, die Sie um eigenen Content im marken­spezifischen Stil er­gänzen können. Dafür sind weniger Trainings­daten not­wendig. Diese Option ist unser Favorit, da sie am leichtesten um­zusetzen ist. Die meisten unserer Kunden haben gerade genug Trainings­daten, um damit eine Basis-Engine weiter­zuentwickeln und somit das Er­gebnis gegen­über der un­trainierten Basis-Engine zu ver­bessern. Für einen kompletten Neu­anfang mit einer leeren Engine reicht die Menge der ver­fügbaren Trainings­daten dagegen meist nicht.
  3. Und schließlich können Sie eine generische Engine im Ist­zustand ver­wenden, für die gar keine Trainings­daten er­forderlich sind.

Berücksichtigt man all diese Punkte und die definierten An­forderungen, lässt sich die Zahl der ge­eigneten MT-Engines oft auf fünf oder sechs ein­grenzen. Nun ist es an der Zeit, die aus­gewählten Engines in der Praxis zu testen.

2. Automatisierte Evaluationen durchführen

Zur Evaluation der Ausgabe­qualität einer MT-Engine gibt es zwei ver­schiedene Methoden: auto­matisiert und manuell. Wir be­ginnen immer mit Ersterer.

Eine der gängigsten Metriken der auto­matisierten Evaluation, die auch wir an­wenden, heißt BLEU (Bilingual Evaluation Understudy). Beim BLEU Score handelt es sich um einen Algorithmus für den Ver­gleich der Ähnlichkeit zwischen einer maschinellen und einer manuellen Über­setzung. Je höher der Score, desto näher kommt die MT-Ausgabe der manuellen Über­setzung, das heißt, desto besser ist die Qualität der Engine. Es ver­steht sich von selbst, dass der BLEU Score höher ausfällt, wenn für die Engine umfang­reiche Trainings­daten zur Ver­fügung stehen.

Theoretisch kann der BLEU Score bis zu 100 be­tragen, doch da auch zwei Menschen nie exakt gleich über­setzen, ist schon ein Wert von 75 als sehr hoch zu be­trachten. Unsere Toleranz­grenze liegt etwa bei 50: Engines, die diesen Wert unter­schreiten, werden aus­geschlossen, da sie den Übersetzungs­prozess voraus­sichtlich nicht effizienter ge­stalten. Engines, die 50 oder mehr er­reichen, können weiter getestet werden.

3. Engines trainieren

Als Nächstes trainieren wir die Engines für den Um­gang mit branchen- oder markt­spezifischer Terminologie, wofür wir Daten aus Ihrem Translation Memory (TM) einsetzen.

Doch was tun, wenn kein TM vorhanden ist, etwa beim Neu­einstieg in einen Markt?

In diesem Fall beginnen wir mit der besten generischen (Basis-)Engine, die für die jeweilige Sprach­kombination ver­fügbar ist. Nachdem die maschinelle Über­setzung von einem menschlichen Post-Editor nach­gebessert wurde (mehr zum Post-Editing, siehe unten), sind die Daten bereit für das Training.

Außerdem ex­perimentieren wir seit Kurzem mit neuen Methoden, Trainings­daten zu er­stellen. So können wir beispiels­weise mit dem Datenabgleichdienst von TAUS Quell­texte hoch­laden, die dann vom System analysiert werden. Anschließend laden wir aus der TAUS-Datenbank Trainings­daten herunter, die zum jeweiligen Content und zur Ziel­sprache passen.

Nachdem wir die Engines trainiert haben, testen wir sie er­neut anhand Ihrer Quell­texte und er­mitteln per auto­matisierter Evaluation, welche Engine am besten ab­schneidet. Am Ende bleiben in der Regel zwei oder drei Kandidaten übrig, die nun noch ein­mal manuell evaluiert werden..

4. Manuelle Evaluation durchführen

In dieser Phase setzen wir unsere ganze Expertise und Er­fahrung ein, um die Engine (oder Kombination aus mehreren Engines) zu er­mitteln, die am besten zu Ihrem Content passt. Dazu analysieren wir erst die „Roh­qualität“ der MT, das heißt den un­bearbeiteten Engine-Output ohne Review oder Editing durch einen Menschen.

Danach führen wir ein Post-Editing (PE) durch und messen dessen Effektivität. (PE ver­langt andere Fähigkeiten als das Über­setzen.) Für den Ab­gleich zwischen roher und per PE nach­bearbeiteter MT-Ausgabe nutzt RWS Moravia ein unternehmens­eigenes Tool. Als Metrik dient dabei beispiels­weise die An­zahl der Be­arbeitungen oder der Zeit­aufwand des Post-Editors zum Editieren der rohen MT-Ausgabe. Je weniger der Post-Editor ein­greifen muss, desto besser ist die Engine.

Am Ende dieser Phase haben wir die Er­gebnisse der auto­matisierten und der manuellen Evaluation ver­glichen, sodass in der Regel ein einzelner MT-Anbieter als Sieger feststeht.

5. Engine(s) auswählen und Pilotprojekt durchführen

Mitunter ist es sinnvoll, für unter­schiedliche Zwecke oder Sprachen mehrere Engines aus­zuwählen. Zum Beispiel könnte es sein, dass für Chinesisch Google und für Französisch Microsoft bessere Er­gebnisse liefert. Denk­bar wäre auch, dass eine Engine besser für das Post-Editing und eine andere besser für die un­bearbeitete MT geeignet ist, sofern Letztere für einen bestimmten Content-Typ aus­reichend ist.

So oder so gilt: Sobald Sie eine oder mehrere Engines aus­gewählt haben, be­ginnen wir mit dem eigent­lichen Training. Dazu speisen wir weitere Trainings­daten ein, um bessere Resultate zu er­zielen. Dies ist keine exakte Wissen­schaft, denn das Er­gebnis ist immer kunden­spezifisch und hängt letztlich von Thema, Content-Typ und Sprach­kombination ab. Das Trainieren einer Engine an­hand ent­sprechender Daten setzt außerdem einiges Herum­probieren voraus.

Ist die Engine bereit, können wir zum Pilot­projekt über­gehen. Auch hier kann es wieder zu ab­weichenden Er­gebnissen kommen. Es ist nicht aus­zuschließen, dass eine Engine mit hohem BLEU Score am Ende doch nicht für Ihren speziellen Zweck ge­eignet ist, sodass wir den MT-Anbieter wechseln oder das Training wieder­holen müssen. Sollte das Pilot­projekt aber erfolg­reich ver­laufen, dann kann die Engine endlich den Betrieb aufnehmen.

Fazit

Wenn Sie den Entschluss getroffen haben, dass maschinelle Über­setzung für Ihre Projekte in­frage kommt, haben Sie die Qual der Wahl. Ein LSP kann Ihnen jedoch mit seiner umfang­reichen Er­fahrung dabei helfen, aus der langen Liste der Kandidaten diejenigen Engines heraus­zufiltern, die am ehesten zu Ihrem Content, Um­fang und Budget passen.

Die „Heraus­forderung“ – in Anführungs­zeichen, weil uns MT-Experten das Experimentieren gar nichts aus­macht – besteht dann darin, ver­schiedene Optionen durch­zuspielen. Selbst wenn wir schon eine Vor­ahnung davon haben, wie eine Engine ab­schneiden wird, müssen wir, um ganz sicher zu sein, die MT-Leistung im Laufe der Zeit messen und überwachen. Schließlich wollen wir die beste Lösung für Sie er­mitteln, ohne Kompromisse.

Uns ist bewusst, dass es hier vieles zu be­achten gibt. Doch dafür ist RWS Moravia da: Wir begleiten Sie gern bei jedem einzelnen Auswahl- und Bereitstellungs­schritt, bis die Resultate den An­sprüchen Ihres Unter­nehmens und Ihrer globalen Kundschaft genügen.