Mit Google, DeepL und Co. sind scheinbar alle Kommunikationsbarrieren gefallen. Ein Klick, und man kann auch Texte auf Chinesisch oder Russisch lesen. Das ist besonders in den Bereichen E-Commerce und Social Media interessant, da jede Sekunde darüber entscheidet, ob ein Besucher auf der Seite bleibt, auf einen Button klickt oder die Seite doch wieder verlässt.

Maschinelle ÜbersetzungMehrere Studien belegen auch, dass der Nutzer vor allem von den Seiten angezogen wird, die in seiner Sprache verfügbar sind. Weil aber im Internet die Seiten ständig zunehmen und sich täglich ändern, ist eine Humanübersetzung nicht möglich. Einmal nicht aus zeitlichen Gründen, da der Text sofort verfügbar sein muss. Und schon gar nicht aus wirtschaftlichen Gründen, denn jedes Wort kostet ja. Nun gibt es zwar bereits automatische Übersetzer, die in der Regel für relativ wenig Geld oder sogar ganz kostenlos zu haben sind. Ganz abgesehen vom Thema Datenschutz («Wer speichert die Daten wo und wie lange?») besteht die Einschränkung dieser universellen Übersetzungssysteme darin, dass sie prinzipiell alle Texte einigermassen akzeptabel übersetzen können, aber eben nichts im Besonderen gut. Nutzt man sie also für ganz spezielle Anwendungsbereiche, z. B. für E-Commerce-Plattformen ganz bestimmter Produktarten oder für Inhalte von Sozialen Medien, zeigt sich sehr bald, dass sie hier nicht so gut funktionieren. Selbst wenn keine perfekte Übersetzung erwartet wird, wie es heute für bestimmte kurzlebige Inhalte im Internet üblich und akzeptiert ist. Warum ist das so?

Maschinelle Übersetzung ist nur so gut wie die Daten, mit denen sie gefüttert wird

Maschinelle Übersetzungssysteme basieren aktuell auf dem Erkennen von Datenmustern, die sie aus vorhandenen Übersetzungen erlernen und aus denen sie Algorithmen errechnen. Mit diesen werden dann neue Texte übersetzt. Die Maschine ist also nur so gut wie die Daten, mit denen sie gefüttert wird. Neben der grossen Datenmenge spielt auch die Qualität eine wichtige Rolle. Gut heisst nicht nur, dass die Texte fehlerfrei und stilistisch korrekt geschrieben oder übersetzt sind, sondern dass sie auch den Inhalten entsprechen, für die sie später genutzt werden. Wer keine eigenen Daten besitzt, kann auf öffentliche Textsammlungen (EU, Europäische Zentralbank, Europäische Arzneimittel-Agentur, usw.) zurückgreifen. Oder man kann Texte aus dem Internet, nach Sprachen und Fachgebieten gefiltert, herunterladen und entsprechend für die Übersetzungsmaschine aufarbeiten, was nicht nur in technischer Hinsicht eine Herausforderung darstellt, sondern auch urheberrechtlich eine ganze Reihe von Fragen aufwirft («Wem gehören jetzt die Texte in der Maschine bzw. aus der Maschine?»).

Maschinelle Übersetzung und ihre sprachlichen Aspekte

Neben der Datenproblematik gilt es speziell bei Übersetzungen in Sozialen Medien sprachliche Aspekte zu beachten. Twitterposts sind zum Beispiel extrem kurz und kontextarm, Mehrdeutigkeiten können nur schwer über das sprachliche Umfeld geklärt werden, einen Kontext gibt es nicht. Oder nehmen wir Internetforen und Facebookposts: Sie weichen je nach Altersgruppe und Land mehr oder weniger stark von der Standardsprache ab – Dialekte, Soziolekte, mit denen jeder automatische Übersetzer seine Mühe haben wird, da er diese Texte nicht ausreichend «kennt». Ein Ansatz in diesem Bereich ist zum Beispiel der, dass die zu übersetzenden Texte zuerst korrigiert und in eine verständliche Form gebracht werden, bevor sie dann durch maschinelle Übersetzung in eine andere Sprache übertragen werden. Sozusagen eine doppelte Übersetzung, bei der wiederum eine ganz Reihe von spannenden Fragen auftauchen, mit denen sich die Wissenschaft (Stichwörter Maschinenlernen, künstliche Intelligenz) noch sehr stark beschäftigt und für die es in den kommenden Jahre sicherlich noch viel zum Grübeln geben wird.

Wie gehts weiter?

Gute, professionelle Maschinen erlangen immer grössere Bedeutung. Der Beitrag des Menschen wird aber weiterhin eine entscheidende Rolle spielen, ob es nun das Übersetzen selbst, das Vorbereiten der Daten oder das Bewerten der maschinellen Übersetzung ist.

Bruno Ciola, Head of Language Technology

Foto: Ciklopea.com