Neural hidden Markov model for machine translation

Wang, Weiyue; Ney, Hermann (Thesis advisor); van Genabith, Josef (Thesis advisor); Hoos, Holger Hendrik (Thesis advisor)

Aachen : RWTH Aachen University (2023)
Doktorarbeit

Dissertation, RWTH Aachen University, 2023

Kurzfassung

In letzter Zeit zeigen die neuronalen maschinellen Übersetzungssysteme eine vielversprechende Qualität und übertreffen die Phrasen-basierten Systeme, die mehr als 10 Jahre lang der Stand der Technik in der statistischen maschinellen Übersetzung waren. Unabhängig davon, ob ein rekurrentes neuronales Netz mit Long Short-Term Memory, oder ein konvolutionelles neuronales Netz oder ein Transformer-Netz verwendet wird, ist der Aufmerksamkeitsmechanismus immer eine der Schlüsselkomponenten, die alle modernen neuronalen maschinellen Übersetzungssysteme enthalten. In dieser Arbeit schlagen wir als Alternative zu aufmerksamkeitsbasierten Systemen eine völlig neuartige neuronale Architektur für die maschinelle Übersetzung vor, die als direktes Hidden-Markov-Model bezeichnet wird. Eine Aufmerksamkeitskomponente hilft einem Encoder-Decoder-Model dabei, bestimmte Positionen auf der Quellseite zu beachten, um eine Übersetzung zu erzeugen. Auf diese Weise wird die Übersetzungsleistung deutlich verbessert. Dieser Mechanismus erfasst die Relevanz zwischen den verborgenen Quell- und Zielzuständen, der eine ähnliche Funktionalität wie ein Alignment-Model in einem Phrasen-basierten maschinellen Übersetzungssystem hat. Aktuelle Forschungen haben jedoch gezeigt, dass die Verwendung von Aufmerksamkeitsgewichten direkt zum Ausrichten von Wörtern zu einer schlechten Ausrichtungsqualität führt. Das inspiriert uns, ein explizites Alignment-Model in die neuronale Architektur einzuführen, um die Ausrichtung und damit auch die Übersetzungsqualität des Gesamtsystems zu verbessern. Zu diesem Zweck schlagen wir vor, das Konzept des Hidden-Markov-Models aus der statistischen maschinellen Übersetzung zu verwenden, das aus einem Lexikonmodell und einem Alignment-Model besteht. Beim neuronalen Hidden-Markov-Model werden die Lexikon- und Ausrichtungswahrscheinlichkeiten durch neuronale Netze modelliert, und die Ausrichtung wird von der Ziel- zur Quellrichtung modelliert, so dass sie direkt in der Vorwärtsübersetzung als Aufmerksamkeitskomponente verwendet werden kann. Die beiden Modelle werden gemeinsam mit dem Vorwärts-Rückwärts-Algorithmus trainiert und das neuronale maschinelle Übersetzungssystem kann weiterhin Ende-zu-Ende trainiert werden. Zur Modellierung der Lexikon- und Ausrichtungswahrscheinlichkeiten können verschiedene neuronale Netzarchitekturen verwendet werden. Wir beginnen mit einfachen Feedforward-Netzwerken und wenden das erste Modell an, um die von Phrasen-basierten Systemen generierten n-Bestenlisten neu zu ordnen, und beobachten signifikante Verbesserungen. Um ein monolithisches direktes Hidden-Markov-Model aufzubauen, werden die ausdrucksstärkeren rekurrenten neuronalen Netze mit Long Short-Term Memory auf die Architektur angewendet und ein eigenständiger Decoder wird implementiert. Indem wir den Aufmerksamkeitsmechanismus durch ein Alignment-Model erster Ordnung ersetzen, erreichen wir eine vergleichbare Leistung wie das Referenz-Aufmerksamkeitsmodell und verbessern gleichzeitig die Ausrichtungsqualität erheblich. Um mit der Entwicklung der neuronalen maschinellen Übersetzung Schritt zu halten, untersuchen wir auch Möglichkeiten die Transformer-Architektur im direkten Hidden-Markov-Model zu nutzen. Im Gegensatz zum Fall des rekurrenten neuronalen Netzes ersetzen wir hier den Aufmerksamkeitsmechanismus nicht vollständig durch das Alignment-Model. Stattdessen kombinieren wir die Ausrichtungsinformationen mit dem Aufmerksamkeitsmechanismus. Die experimentellen Ergebnisse zeigen, dass die Anwendung des Konzepts des direkten Hidden-Markov-Models die Leistung der modernen Transformer-Architektur in Bezug auf TER- und CHARACTER-Werte signifikant verbessert. Neben der Arbeit am direkten Hidden-Markov-Modell schlagen wir zwei neue Metriken für die Bewertung der maschinellen Übersetzung vor, genannt CHARACTER und EED. Sie sind einfach zu nutzen und für jeden öffentlich verfügbar. Sie schneiden bei den jährlichen WMT-Metriken-Shared-Tasks vielversprechend ab und gehören immer zu den Spitzenreitern.

Einrichtungen

  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Informatik 6 (Maschinelles Lernen) [122010]

Identifikationsnummern

Downloads