Generative Training and Smoothing of Hierarchical Phrase-Based Translation Models

Peitz, Stephan; Ney, Hermann (Thesis advisor); Allauzen, Alexandre (Thesis advisor)

Aachen (2017)
Doktorarbeit

Dissertation, RWTH Aachen University, 2017

Kurzfassung

Die hierarchische phrasenbasierte Übersetzung ist ein bewährter Ansatz in der maschinellen Übersetzung, um zwischen Sprachen mit unterschiedlichen Wortstellungen zu übersetzen. Der erste Teil dieser Dissertation behandelt das Thema der Glättung und des Trainings von Übersetzungsmodellen, die in der hierarchischen Übersetzung verwendet werden. Zusätzlich präsentieren wir eine verbesserte Implementierung des Suchalgorithmus und zeigen, dass diese konkurrenzfähig im Vergleich mit anderen modernen Implementierungen ist. Im zweiten Teil dieser Arbeit schlagen wir vor, hierarchische phrasenbasierte Übersetzung im Kontext der Übersetzung von gesprochener Sprache zu verwenden.Im modernen hierarchischen phrasenbasierten Übersetzungsmodell-Extraktionsprozess werden Übersetzungsregeln und die dazugehörigen Übersetzungswahrscheinlichkeiten aus wortalinierten Trainingsdaten basierend auf einfachen Heuristiken extrahiert. Ein bekanntes Problem ist, dass auch wenn eine große Menge an Trainingsdaten zur Verfügung steht, das erzeugte Übersetzungsmodell unter Datenkargheit leiden kann. Glättung ist ein Ansatz, um dieses Problem zu lösen, und findet bereits Anwendung in anderen Sprachverarbeitungsgebieten (wie zum Beispiel in der Sprachmodellierung). Im Rahmen der maschinellen Übersetzung sollen selten gesehene Übersetzungsregeln besser modelliert werden. In dieser Dissertation untersuchen und vergleichen wir verschiedene Glättungstechniken für die hierarchische phrasenbasierte Übersetzung. Ein weitere Problem ist die Separation des Extraktions- und des Übersetzungsprozesses. Die Extraktion beachtet nämlich nicht, ob eine extrahierte Übersetzungsregel wirklich nützlich im Übersetzungsprozess ist. Um zu lernen, ob eine Übersetzungsregel relevant ist, verfolgen wir den Ansatz der Übersetzung der Trainingsdaten. Dabei wird die Übersetzung eines Quellsatzes gelenkt, so dass der zugehörige Zielsatz generiert wird. Die verwendeten Übersetzungsregeln werden dann gespeichert und die dazugehörigen Übersetzungswahrscheinlichkeiten neu berechnet. Um überhaupt große Mengen von Trainingsdaten zu übersetzen, wird ein effiziente und schnelle Implementierung benötigt. In dieser Arbeit stellen wir eine solche Implementierung zur Neuberechnung von hierarchischen Übersetzungsmodellen vor. Dieser Ansatz ermöglicht uns, kleinere Übersetzungsmodelle zu lernen und gleichzeitig die Übersetzungsqualität zu verbessern.Des Weiteren vergleichen wir unseren Ansatz mit einer anderen modernen Übersetzungsmodell-Trainingsmethode, nämlich das diskriminative Training, im Rahmen einer umfangreichen Evaluierung. Das Sprachpaar ist Chinesisch-Englisch. Die Übersetzung von gesprochener Sprache verbindet automatische Spracherkennung mit maschineller Übersetzung. Da die meisten modernen Spracherkennungssysteme Erkennung ohne Interpunktion und Groß- und Kleinschreibung liefern, müssen diese Information vor dem eigentlichen Übersetzungsprozess wieder eingefügt werden. In dieser Arbeit zeigen wir, dass die Modellierung von Interpunktion und Groß- und Kleinschreibung als maschinelle Übersetzung die Übersetzungsqualität verbessern kann. Wir schlagen außerdem vor, dafür ein hierarchisches phrasenbasiertes Übersetzungssystem zu verwenden, und vergleichen dies mit anderen Ansätzen in einer umfangreichen Evaluierung. Das Sprachpaar ist Englisch-Französisch. Alle Methoden, die in dieser Dissertation beschrieben wurden, sind der Forschungsgemeinschaft frei zugänglich, da diese in die Open-Source-Software Jane integriert worden sind.

Identifikationsnummern