Fuzzy Matches, Wiederholungen und No Match – Mengenanalyse mit Translation-Memory-Systemen

Translation Memory-Systeme (TMS) sind heutzutage Standard­werkzeuge für die An­fertigung von Über­setzungen. Dies wirkt sich auch auf die Kalkulation von Über­setzungs­leistungen aus. Während früher einfach die Text­menge des zu über­setzenden Textes er­mittelt wurde, ent­halten Angebote heut­zutage oft eine Vielzahl von ver­schiedenen In­formationen über die Re­dundanz im Ausgangs­text. Doch was bedeutet dies eigentlich?

Translation Memory-Systeme sind grob gesagt Daten­banken, in denen die Über­setzungen von Über­setzern ge­speichert werden. Die Daten­banken mit den Über­setzungen nennt man Translation Memorys. Die Über­setzungen werden dabei in Sinn­einheiten (Segmenten) bilingual abgelegt.

Analyse-SDL-Studio_graphic_DE-1024x472

Bei der Analyse eines neu zu übersetzenden Ausgangs­textes wird nun auch dieser Text in Segmente zerteilt und für jedes Seg­ment wird ge­prüft ob es bereits in der Daten­bank ent­halten ist. Dabei können die TMS nicht nur identische Seg­mente er­mitteln, sondern über ver­schiedene Algo­rithmen auch ähnliche Segmente finden. Die Ähnlich­keit wird mit einem sogenannten Fuzzy-Wert an­gegeben. Je höher dieser Wert, desto ähn­licher sind die Segmente. Segmente die nicht in der Daten­bank ge­funden werden, be­zeichnet man als No Match, also kein Treffer. Segmente die genau identisch zu einem Eintrag im Translation Memory sind, nennt man 100%-Matches.

Moderne TMS gehen noch einen Schritt weiter. Die so­genannten 101%-Matches sind die­jenigen Matches, die nicht nur identischen Text­inhalt aufweisen, sondern auch im um­gebenden Kontext gleich sind. Sie werden, je nach TMS auch Context Match oder ICE-Match genannt. Der Kontext­vergleich wird über die Segmente in der Umgebung des ge­prüften Elements und sofern verfügbar auch über weitere Meta­informationen wie beispiels­weise der Struktur­information ermittelt. Und es gibt auch noch Perfect Matches. Hierbei wird der Ausgangs­text nicht mit den Über­setzungen aus einem Translation Memory ver­glichen, sondern es wird ein anderes Dokument heran­gezogen. Das könnte beispiels­weise eine vorherige Version des Ausgangs­textes sein. Schließlich wird noch die Redundanz er­mittelt, die sich inner­halb eines Ausgangs­textes befindet. Hier heißen die 100%-Matches dann Wieder­holungen oder Repetitions.

Bei 100%-Matches kann es vorkommen, dass trotz identischem Ausgangs­text eine vom Translation Memory ab­weichende Über­setzung ver­wendet werden muss. Dies liegt häufig am Kontext des Segmentes. Eine Über­schrift wird möglicher­weise anders zu über­setzen sein, als der gleiche Text als Bild­unterschrift, Aufzählungs­element oder Handlungs­anweisung. Aus diesem Grund sollten 100%-Matches vom Übersetzer zu­mindest noch einmal über­prüft werden, während man bei den 101%-Matches davon ausgeht, dass man sie auch ungeprüft übernehmen kann.

Bei der Kalkulation von Übersetzungs­leistungen erwartet man nun weniger Übersetzungs­aufwand wenn der Übersetzer viele Vor­schläge aus dem Translation Memory bekommt. D.h. je mehr Matches es gibt und je höher die Ähnlichkeit ist, desto geringer sollte der Übersetzungs­aufwand sein. Dies wird oft durch reduzierte Preise für die einzelnen Match­klassen abgebildet. Damit der Einsatz eines Translation Memorys tat­sächlich zu einem geringeren Übersetzungs­aufwand führt, müssen die Inhalte des verwendeten Translation Memorys von guter Qualität sein. Dies betrifft sowohl die Korrekt­heit der Über­setzung als auch die konsistente Verwendung von Stil und Terminologie in den ge­speicherten Über­setzungen des Translation Memorys.