Search and training with joint translation and reordering models for statistical machine translation
- Suche und Training mit kombinierten Übersetzungs- und Umordnungsmodellen für die statistische maschinelle Übersetzung
Guta, Vlad Andreas; Ney, Hermann (Thesis advisor); Fraser, Alexander M. (Thesis advisor)
Aachen (2020)
Doktorarbeit
Dissertation, RWTH Aachen University, 2020
Kurzfassung
Als statistische maschinelle Übersetzung bezeichnet man die Aufgabe einen Text in geschriebener natürlicher Sprache automatisch in eine andere natürliche Sprache zu übersetzen. Dies wird mithilfe statistischer Modelle durchgeführt, was die Definition geeigneter Modelle, die Suche nach der wahrscheinlichsten Übersetzung des gegebenen Textes anhand der Modelle sowie das Schätzen der Modellparameter aus bilingualen Satzpaaren impliziert. Phrasenbasierte maschinelle Übersetzung trat vor zwei Jahrzehnten in Erscheinung und entwickelte sich innerhalb der Folgejahre zum Stand der Technik. Nichtsdestotrotz führte der Durchbruch in der neuronalen maschinellen Übersetzung in 2014 zu einer abrupten Umstellung auf neuronale Modelle. Ein grundlegender Nachteil des traditionellen Ansatzes sind die Phrasen selbst. Sie werden aus bilingualen Daten, die auf der Wortebene aligniert sind, mithilfe handgefertigter Heuristiken extrahiert. Die Phrasenübersetzungsmodelle werden auf Grundlage der bei der Extraktion gezählten Häufigkeiten geschätzt, die sich durch die Anwendung der Heuristiken ergeben. Ferner schließen die Übersetzungsmodelle jegliche phrasenexterne Informationen aus, was im Umkehrschluss den Kontext einschränkt, der bei der Generierung des nächsten Zielwortes benutzt wird. Um die beschränkten Modelle zu ergänzen, wird eine Vielfalt an zusätzlichen Modellen und Heuristiken benutzt. Dennoch ist der potentiell größte Nachteil, dass die für die Phrasenextraktion benötigten Wortalignierungen mit IBM- und Hidden Markov-Modellen trainiert sind. Dies führt zu einer Unstimmigkeit zwischen den Modellen, die im Training benutzt werden, und denen, die in der eigentlichen Suche Anwendung finden. Obwohl der neuronale Ansatz den phrasenbasierten an Leistung übertrifft, verbleibt die offene Frage, ob es die Komplexität der neuronalen Modelle, welche Abhängigkeiten zwischen ganzen Quellsätzen und ihren Übersetzungen erfassen können, oder die kohärente Anwendung derselben Modelle im Training und in der Suche ist, das zur überlegenen Leistung der neuronalen maschinellen Übersetzung führt. Unser Ziel ist diese Frage zu beantworten, indem wir eine kohärente und gegenüber dem phrasenbasierten Ansatz verbesserte Modellierungspipeline entwickeln, die auf weniger aber stärkeren Modellen basiert, Abhängigkeiten von Phrasenheuristiken verwirft und dieselben wortbasierten Modelle sowohl im Training als auch in der Suche anwendet. Zunächst untersuchen wir zwei verschiedene Arten wortbasierter Übersetzungsmodelle: erweiterte Übersetzungsmodelle und verbundene Übersetzungs- und Umordnungsmodelle. Beide werden durch erweiterte Kontextinformationen verbessert und schätzen Wahrscheinlichkeiten von Wörtern und Wortumstellungen. Die Modelle sind direkt in die phrasenbasierte Suche integriert und werden im Vergleich zu dem Stand der Technik entsprechenden phrasenbasierten Baselines evaluiert, um den zu Phrasenmodellen zusätzlichen Leistungsertrag zu untersuchen. Im zweiten Teil entwickeln wir einen neuartigen Beam-Search-Decoder, der ein verbundenes Übersetzungs- und Umordnungsmodell einbindet. Dadurch, dass der Decoder die Übersetzung wortweise generiert, ist er unabhängig von heuristischen Phrasen. Insgesamt beinhaltet der Decoder weitaus weniger Features als phrasenbasierte Systeme und seine Leistung wird im Vergleich zu den oben genannten phrasenbasierten Baselinesystemen untersucht. Das finale Ziel dieser Arbeit ist es, ein robustes und kohärentes End-to-End-Framework für die maschinelle Übersetzung zu erhalten. Zu diesem Zweck setzen wir dieselben Modelle und Suchalgorithmen, die in der wortbasierten Übersetzung Verwendung finden, auch im Training ein. Hierfür entwickeln wir einen Algorithmus, um Wortalignierungen und Modellparameter alternierend zu optimieren, was iterativ mit steigender Komplexität der Modelle durchgeführt wird.
Identifikationsnummern
- DOI: 10.18154/RWTH-2020-09970
- RWTH PUBLICATIONS: RWTH-2020-09970