Wenn Maschinen Texte übersetzen, gehen sie meist Satz für Satz vor. Dabei stehen wichtige Informationen oft an anderer Stelle im Text. Schweizer Forschende verfolgen den Ansatz, Übersetzungsprogrammen mehr Textverständnis beizubringen und so zu verbessern.
Programme wie «Google Translate» verwenden Statistik, um die wahrscheinlichste Übersetzung von Wortgruppen in Sätzen zu liefern. Hinter menschlichen Übersetzerinnen liegen die Maschinen jedoch noch meilenweit zurück.
Angrenzende Sätze analysieren
Einer der Gründe: Die Algorithmen schauen dabei nicht über die Grenzen eines Satzes hinaus. Dadurch haben sie etwa Mühe mit Pronomen, wie «sie» oder «diese», da das, worauf sie sich beziehen, in einem anderen Satz steht.
Forschende um Andrei Popescu-Belis vom Forschungsinstitut Idiap in Martigny VS wollen das im Rahmen eines vom Schweizerischen Nationalfonds SNF unterstützten Projekts ändern, indem sie den Algorithmus auch angrenzende Sätze analysieren lassen. Am Montag stellen sie ihre neuesten Ergebnisse an einer Konferenz der «Association for Computational Linguistics» im spanischen Valencia vor.
Fehlerrate bisher bei 50 Prozent
Ein Beispiel, wie das «Satz für Satz» Vorgehen von Übersetzungstools Probleme mit Pronomen verursacht, gibt der SNF in einer Mitteilung: «Meine Tante hat eine tolle Limousine gekauft. Sie ist aber nicht so schön.» Google Translate übersetzt dies so ins Englische: «My aunt has bought a great sedan. But she is not so beautiful.» Der englischsprachige Leser liest also, dass die Tante nicht so schön sei, weil «sie« in Zusammenhang mit «schön» öfter mit «she; übersetzt wird als mit «it».
Solche Probleme bestehen insbesondere bei Übersetzungen zwischen Französisch und Englisch, sowie Englisch und Spanisch. Programme wie Google Translate irren sich beim Übersetzen von Pronomen bei diesen Sprachpaaren in rund der Hälfte der Fälle.
Maschinelles Lernen
Das von Popescu-Belis' Team gemeinsam mit Kollegen von den Universitäten Genf, Zürich und Utrecht entwickelte Tool senkt diese Fehlerrate auf 30 Prozent, wie der SNF schreibt. Der Trick: Die Wissenschaftlerinnen und Wissenschaftler brachten dem Übersetzungsalgorithmus mittels maschinellem Lernen bei, auch angrenzende Sätze zu berücksichtigen.
«Im Prinzip geben wir dem System an, wie viele der voranstehenden Sätze es in welcher Weise analysieren muss. Dann testen wir es unter realen Bedingungen«, sagt Popescu-Belis gemäss der Mitteilung.
Aufmerksamkeit von Übersetzungsprogrammen
Noch sei die Technik zwar nicht ausgereift für die breite Anwendung, allerdings hat das Projekt schon die Aufmerksamkeit von Anbietern von Übersetzungsprogrammen auf sich gezogen, hiess es weiter.
Das Forschungsteam sieht in der Lösung des Pronomen-Problems indes nur den Anfang. Mit der gleichen Idee, Maschinen mit mehr Textverständnis übersetzen zu lassen, wollen sie auch Aspekte wie die korrekte Abfolge der Zeiten oder die zum Kontext passende Terminologie verbessern.