Statistical models for hierarchical phrase-based machine translation

Aachen (2018, 2019) [Doktorarbeit]

Seite(n): 1 Online-Ressource (ix, 142 Seiten) : Illustrationen

Kurzfassung

Maschinelle Übersetzungssysteme übersetzen Texte automatisch aus einer natürlichen Sprache in eine andere. Der dominierende Ansatz zur maschinellen Übersetzung war für viele Jahre die phrasenbasierte statistische maschinelle Übersetzung. In der statistischen maschinellen Übersetzung werden probabilistische Modelle aus Trainingsdatengelernt, und ein Dekoder führt eine Suche durch, um basierend auf den Modellbewertungen die beste Übersetzung eines Eingabesatzes zu bestimmen. Phrasenbasierte Systeme stützen sich auf elementare Übersetzungseinheiten, die aus zusammenhängenden bilingualen Sequenzen von Wörtern bestehen, sogenannten Phrasen. Der hierarchische Ansatz zur statistischen maschinellen Übersetzung erlaubt Phrasen mit Lücken. Formal kann das hierarchische Phraseninventar als eine synchrone kontextfreie Grammatik repräsentiert werden, die aus bilingualem Text induziert wird, und das hierarchische Dekodieren kann mit einer parsingbasierten Prozedur durchgeführt werden. Das Paradigma der hierarchischen phrasenbasierten maschinellen Übersetzung ermöglicht eine konsistente Art und Weise der Modellierung von Umordnungen und Abhängigkeiten über weite Distanzen. Die üblichen statistischen Modelle, die die hierarchische Suche leiten, sind recht ähnlich zu denjenigen, die in der konventionellen phrasenbasierten Übersetzung eingesetzt werden. In der vorliegenden Arbeit werden neuartige Erweiterungen der hierarchischen phrasenbasierten maschinellen Übersetzung mit statistischen Modellen entwickelt, mit einem Hauptaugenmerk auf Methoden, für die keinerlei syntaktische Annotation der Daten erforderlich ist. Es werden im Einzelnen Verbesserungen hierarchischer Systeme mittels erweiterter lexikalischer Modelle erforscht, welche den gesamten Quellsatz als Kontext berücksichtigen. Es werden verschiedene Varianten der lexikalischen Glättung untersucht. Umordnungserweiterungen und ein Modell der Phrasenorientierung für die hierarchische Übersetzung werden eingeführt. Modelle der Worteinfügung und -löschung werden präsentiert. Techniken zum Training hierarchischer Übersetzungssysteme mit Hilfe zusätzlicher synthetischer Daten werden vorgestellt. Und eine Trainingsmethode wird vorgeschlagen, die zusätzliche synthetische Daten verwendet, welche ausgehend von einer Zwischensprache erzeugt wurden. Die Nützlichkeit der Erweiterungen zur Verbesserung der Übersetzungsqualität wird anhand empirischer Evaluation an mehreren Sprachpaaren verifiziert, darunter Arabisch→Englisch, Chinesisch→Englisch, Französisch→Deutsch, Englisch→Französisch und Deutsch→Französisch.

Autorinnen und Autoren

Autorinnen und Autoren

Huck, Matthias

Gutachterinnen und Gutachter

Ney, Hermann
Fraser, Alexander M.

Identifikationsnummern

  • REPORT NUMBER: RWTH-2019-06141

Downloads