Effective training and efficient decoding for statistical machine translation

  • Effektives Training und effizientes Decodieren für statistische maschinelle Übersetzung

Wübker, Jörn; Ney, Hermann (Thesis advisor); van Genabith, Josef (Thesis advisor)

Aachen (2017)
Doktorarbeit

Dissertation, RWTH Aachen University, 2017

Kurzfassung

Als statistische maschinelle Übersetzung bezeichnet man die Problemstellung, mit Hilfe von statistischen Modellen Text aus einer natürlichen Sprache in eine andere zu übersetzen. Man kann sie in drei Unterprobleme unterteilen: Modellierung, Suche und Training. Diese Doktorarbeit beschreibt den populärsten Ansatz für statistische maschinelle Übersetzung, die Phrasen-basierte Übersetzung, im Detail und führt Verbesserungen zum aktuellen Stand der Technik in allen drei der oben erwähnten Aspekte ein. Für das Suchproblem werden drei neuartige Techniken zur Sprachmodellvorschau (engl.: language model look-ahead) vorgestellt, die die Zeit- und Speichereffizienz des Suchalgorithmus beträchtlich erhöhen können und unterschiedliche Wirkung auf die Qualität der Ausgabe haben. Ihr Einfluss auf die Qualität und Geschwindigkeit der Übersetzungen, sowie auf die Anzahl von Sprachmodellanfragen und generierten Knoten im Suchgraphen wird detailliert ausgewertet. Wir können zeigen, dass unser endgültiges System die weitverbreitete Software “Moses” in ihrer Übersetzungsgeschwindigkeit Übertrifft. In Bezug auf das Problem der Modellierung erweitern wir den Stand der Technik mit neuartigen Glättungsmodellen, die auf Wortklassen basieren. Auch bei großen Datenmengen gibt es bei statistischen Modellen oft viele Parameter, deren Wert nur aus sehr wenigen Beobachtungen geschätzt werden kann. In dieser Arbeit werden die Standardmodelle des Phrasen-basierten Ansatzes zur statistischen maschinellen Übersetzung mit Hilfe von Wortklassen neu parametrisiert, was zu einer glatteren Wahrscheinlichkeitsverteilung und einer besseren Datenlage zur Parameterschätzung führt. Die Wortklassen können unüberwacht gelernt werden. Der größte Teil dieser Doktorarbeit beschäftigt sich mit dem Trainingsproblem. Wir untersuchen sowohl generative, als auch diskriminative Trainingsverfahren, welche zwei fundamental unterschiedliche Ansätze zum Lernen statistischer Modelle darstellen. Unser generatives Verfahren ist an den Expectation-Maximization-Algorithmus angelehnt und basiert auf einer erzwungenen Alignierung der Trainingsdaten mit dem Suchverfahren, wobei eine “leave-one-out”-Technik angewandt wird um Überanpassung zu vermeiden. Der Vorteil gegenüber der üblichen heuristischen Modellextraktion ist, dass im Training und später in der Suche dieselben Modelle verwendet werden. Diese Technik wird außerdem zu einer Längen-inkrementellen Methode weiterentwickelt, welche nicht mit einem Viterbi-Wortalignment initialisiert wird. Dessen Inkonsistenzen werden daher nicht in die Modelle weiterpropagiert. Sowohl das Lernverfahren, als auch die resultierenden Modelle werden detailliert untersucht. Als diskriminative Trainingsmethode verwenden wir ein Gradienten-basiertes Verfahren, das den erwarteten BLEU-Wert optimiert. Unser neuer wissenschaftlicher Beitrag ist der Einsatz des Resilient-Backpropagation-Algorithmus, dessen Überlegenheit zu mehreren in der Literatur angewandten Techniken experimentell gezeigt wird. Im Vergleich zu früher verwendeten Methoden zeichnet er sich außerdem durch eine signifikant höhere Zeit- und Speichereffizienz aus, so dass wir unser Training auf dem größten Datensatz durchführen können, von dem in der Literatur bisher berichtet wurde. Unsere neuartigen Methoden werden auf großen Datensätzen und in öffentlichen Evaluierungen mit internen und externen Resultaten experimentell verglichen. Dabei zeigt sich, dass insbesondere das Wortklassen-Sprachmodell sowie unser diskriminatives Trainingsverfahren auch für große und moderne System, die dem aktuellen Stand der Technik entsprechen, hilfreiche Erweiterungen darstellen.

Identifikationsnummern