An exploration of alignment concepts to bridge the gap between phrase-based and neural machine translation

  • Von der phrasenbasierten zur neuronalen maschinellen Übersetzung mittels diverser Alignierungskonzepte

Peter, Jan-Thorsten; Ney, Hermann (Thesis advisor); van Genabith, Josef (Thesis advisor)

Aachen (2020)
Doktorarbeit

Dissertation, RWTH Aachen University, 2020

Kurzfassung

Die maschinelle Übersetzung, das heißt die automatischen Übersetzung von Text von einer natürlichen Sprache in eine andere, hat in den letzten Jahren massive Veränderungen erfahren. Phrasenbasierte Systeme stellten mehr als ein Jahrzehnt lang den Stand der Technik da. Fortschritte in der Struktur neuronaler Netze und in der Rechenleistung ermöglichten den Aufbau neuronaler maschineller Übersetzungssysteme, welche zunächst die phrasenbasierten Systeme verbesserten und später übertrafen. Die beiden Ansätze haben ihre Stärken in verschiedenen Bereichen. Die phrasenbasierten Systeme ermöglichen schnelle Übersetzungen auf der CPU und können durch Analyse der Übersetzungstabellen nachvollzogen werden. Im Gegensatz dazu erzeugt die neuronale maschinelle Übersetzung flüssigere Übersetzungen und ist robuster gegenüber kleinen Änderungen in den Eingabesätzen. Diese Dissertation zielt darauf ab, beide Systeme durch die Kombination ihrer Vorteile zu verbessern. Der erste Teil dieser Arbeit konzentriert sich auf die Analyse und Integration neuronaler feedforward-Netze in phrasenbasierte Systeme. Schon kleine Änderungen in der Eingabe eines phrasenbasierten Systems können ein Ereignis, welches gesehen wurde, in ein ungesehenes Ereignis verwandeln. Neuronale Netze sind aufgrund der stetige Darstellung des Eingabesatzes im mehrdimensionalen im Vektorraum in der Lage, direkt mit solchen Fälle umzugehen. Phrasenbasierte Systeme sind hingegen gezwungen, auf kürzere Phrasen zurückzugreifen. Dies bedeutet einen Verminderung des Übersetzungskontextes, was im Allgemeinen zu einer Verschlechterung der Übersetzungsqualität führt. Wir kombinieren die Flexibilität, die durch neuronale feedforward-Netze geboten wird, mit phrasenbasierten Systemen um eine Verbesserung gegenüber den rein phrasenbasierten Systemen zu erzielen. Wir verwenden hier neuronale feedforward-Netze, da sie konzeptionell einfach anzuwenden sind. In der Regel nutzen neuronale feedforward-Modelle nur einen lokalen Quell- und Zielkontext. Aufgrund dieser Struktur können sie keine Abhängigkeiten zwischen Wörtern über große Entfernungen erfassen. Wir verbessern die Leistung von diesen Modellen, indem wir die Abhängigkeiten über große Entfernungen effizient in ihre Struktur einbauen. Dafür nutzen wir einen Bag-of-Words Ansatz als zusätzlich Eingabe. Der zweite Teil der Arbeit konzentriert sich auf den rein neuronalen maschinellen Übersetzungsansatz unter Verwendung des Encoder-Decoder-Modells in Verbindung mit einem Aufmerksamkeits-Mechanismus. Dieser Mechanismus entspricht indirekt der weichen Alignierung von Quell- zu Zielwörtern. Bei jedem Übersetzungsschritt verlässt sich dieses Modell nur auf seinen vorherigen internen Zustand und die aktuelle Decoder-Position, um die Aufmerksamkeitsgewichte zu berechnen. Es gibt kein direktes Feedback von den zuvor verwendeten Aufmerksamkeitsgewichten. Inspiriert durch das Hidden-Markov-Modell, bei welchem die Vorhersage der aktuellen Position von der vorherigen Position abhängt, verbessern wir das Aufmerksamkeitsmodell, indem wir eine direkte Verbindung zu den zuvor verwendeten Aufmerksamkeitgewichten hinzufügen. Zusätzlich verwenden wir Wortalignierungen für neuronale Netze, um die neuronale Netze während des Trainings in die richtige Richtung zu lenken. Indem wir ein Abweichen des Aufmerksamkeits-Mechanismus vom Wort-Alignment als zusätzliche Kostenfunktion einbeziehen, erzielen so trainierte Netzwerke bessere Ergebnisse. Auch wenn die neuronalen Modelle auf dem neuesten Stand der Technik keine Wortalignierungen mehr erfordern, gibt es immer noch Anwendungen, die von Alignments profitieren, wie zum Beispiel die Visualisierung paralleler Sätze, das Erstellen von Wörterbüchern, die automatische Segmentierung langer paralleler Sätze und das erwähnte Training neuronaler Netzen. Wir stellen eine Möglichkeit vor, neuronale Modelle anzuwenden, um Wortalignierungen zu erstellen, welche eine höhere Genauigkeit besitzen als Wortalignierungen, welche mit IBM- und Hidden-Markov-Modellen erzeugt wurden. Wir evaluieren diese Techniken im Rahmen von mehreren öffentlichen Evaluierungskampagnen. Methoden, welche häufig komplexe Arbeitsabläufe mit sich bringen, auf neue Übersetzungsaufgaben anzuwenden ist eine mühsame und fehleranfällige Aufgabe. Wir stellen einen Workflow-Manager vor, welcher im Rahmen dieser Dissertation entwickelt worden ist, um diese Aufgabe zu vereinfachen und einen leichteren Wissenstransfer zu ermöglichen.

Identifikationsnummern

Downloads