Maschinelle Übersetzung: Firmenspezifische Adaptierung

Maschinelle Übersetzung (MT) kann heute eigentlich jeder nutzen: In den meisten Fällen bieten sich hier Systeme an, die schon betriebsbereit zur Verfügung stehen. Bei manchen Textarten (Rechtstexte, EU-Texte usw.) liefern diese bereits recht gute Ergebnisse, bei anderen bleibt das Resultat noch weit hinter den Erwartungen.

Maschinelle Übersetzung Cyber-BrainDie Qualität der maschinellen Übersetzung hängt von mehreren Faktoren ab. Werbeslogans oder literarische Texte bewältigt die Maschine nur schwer. Auch das Übertragen von Inhalten in Sprachen mit komplett anderen grammatikalischen Strukturen (etwa von Deutsch auf Japanisch) stellt eine Herausforderung dar. Ebenso hängt das Ergebnis von den Fachwörtern (Produktnamen, Dienstleistungen, Abteilungen, Funktionsbezeichnungen usw.) ab, die meist sehr unternehmensspezifisch sind und vielleicht sogar komplett falsch von der Maschine übersetzt werden. Es gibt daher Systeme, die mit eigenen Daten gefüttert werden können, damit sie firmenspezifische Texte besser «verstehen» und somit besser übertragen können.

Was ist zur firmenspezifischen Adaptierung bei maschinellen Übersetzungssystemen notwendig?

Meist werden in das MT-System zweisprachige Daten eingespeist, etwa in Form von Beispielübersetzungen, also Texten in der Ausgangssprache und dem Pendant der Zielsprache. Daneben nutzt man Glossare, das heisst Benennungspaare für die betreffenden Sprachen. Aktuell ist deren Einsatz bei den neuen neuronalen Übersetzungssystemen teilweise noch gar nicht möglich. Ein spannendes Forschungsgebiet!

Je nachdem, in welcher Form das MT-System die Daten aufnehmen kann, ist gute Vorbereitung notwendig. Warum? Je «besser» das Material, desto besser ist auch das Ergebnis der maschinellen Übersetzung. Je schlechter das Material, desto mehr Fehler wird die Maschine produzieren. Ganz nach dem Motto garbage in, garbage out.

Was sind «gute» Daten?

Einerseits geht es um die Technik: Das Dateiformat muss eine einfache Zuordnung der vollständigen und korrekten Satzpaare in den beiden Sprachen ermöglichen, da sonst die Maschine mit falschen Übersetzungen gefüttert wird. Wer kennt nicht das Ergebnis, wenn eine PDF-Datei in ein Word-Dokument kopiert wird und sich dann nach jeder Zeile ein Absatz befindet, auch wenn der Satz dort gar nicht endet. Mit solchen Datenschnipseln kann die Maschine wenig anfangen. Zum anderen sind auch sprachliche Aspekte wichtig: Diese betreffen die Inhalte der oft grossen Datenmengen (meist Tausende von Satzpaaren), die ja nicht systematisch einzeln geprüft werden können. Nicht mehr aktuelle Übersetzungen sollten zum Beispiel ausgemustert werden. Oder solche, in denen die Fachbegriffe nicht (mehr) der Firmenterminologie entsprechen. In beiden Fällen würde man sonst die Maschine mit falschen Daten füttern, was zu ungenauen oder falschen Ergebnissen bei der Rohübersetzung führen würde.

Wie bereitet man die Glossare vor?

Nicht ganz trivial ist die Vorbereitung der Glossare. Sind nämlich noch keine Listen verfügbar, müssen diese erst erarbeitet werden. Selbst wenn auch hier maschinengestützte Systeme zur Erfassung der Benennungen verwendet werden, ist das Auslesen, Prüfen und möglicherweise Kategorisieren der Benennungspaare meist eine manuelle Aufgabe, die verschiedene Fragen aufwirft: Wie sollen bei flektierten Sprachen die Benennungen erfasst werden? Nur in der Grundform? Oder müssen vielleicht auch grammatikalische Kategorien erfasst werden? Und wie schaut es aus bei produktspezifischen Terminologien, die je nach Unternehmensbereich oder Sparte oder je nach Marke variieren können?
Computer werden auch in diesem Bereich einen immer grösseren Beitrag zur Automatisierung und Rationalisierung der Arbeit leisten. Und dennoch braucht es weiterhin Sprachspezialisten, ohne die eine entsprechende Vorbereitung und effiziente Nutzung dieser Systeme nicht möglich wäre. Und es wird weiterhin immer noch viele Texte geben, die eine Maschine nicht gut übersetzen kann.

Bruno Ciola, Leiter Terminologie

Foto: Pixabay