Neural sequence-to-sequence modeling for language and speech translation
Bahar, Parnia; Ney, Hermann (Thesis advisor); Yvon, Francois (Thesis advisor); Decker, Stefan Josef (Thesis advisor)
Aachen : RWTH Aachen University (2022, 2023)
Doktorarbeit
Dissertation, RWTH Aachen University, 2022
Kurzfassung
In den letzten Jahren wurden verschiedene Bereiche menschlicher Sprachtechnologie durch den Erfolg neuronaler Sequenz-zu-Sequenz-Modellierung vorangebracht. Die Anwendung von Attention-Modellen in der automatischen Spracherkennung sowie in der maschinellen Übersetzung von geschriebener und gesprochener Sprache hat sich inzwischen etabliert. Obwohl die Effektivität solcher Modelle in wissenschaftlichen Arbeiten dokumentiert wurde, sind noch nicht alle Aspekte von Sequenz-zu-Sequenz-Modellen erforscht worden, die auf Attention-Modellen basieren, und einige wesentliche Konzepte fehlen noch. Daher konzentriert sich diese Arbeit auf die Umgestaltung von Attention-Modellen, indem neue Alternativen für die Sprachtechnologie vorgeschlagen werden. Attention-Modelle haben keine bedingten Abhängigkeiten zu früheren Attention-Informationen. Inspiriert von statistischen Wortalignierungen erweitert diese Arbeit zunächst das rekurrente Attention-Modell durch die implizite Einbeziehung weiterer Alignierungsinformationen aus früheren Ausgabepositionen. Des Weiteren geht diese Arbeit hinsichtlich der Modellierung über die derzeitigen Sequenz-zu-Sequenz-Modelle hinaus, indem Eingabe- und Ausgabesequenzen direkt in eine 2D-Struktur einbezogen werden, für die ein Attention-Mechanismus nicht mehr erforderlich ist. Dieses Modell unterscheidet sich von Attention-Modellen, bei denen die Eingabe und Ausgabe als eindimensionale Sequenzen über die Zeit behandelt und dann mit einem Attention-Mechanismus kombiniert werden. Im Gegensatz zu Attention-Modellen, welche die Encoder-Zustände während der Dekodierung nicht neu interpretieren, erhöht das vorgeschlagene Modell die Expressivität der Kontextvektoren, indem es die Eingangsrepräsentationen so verändert, dass sie von der partiellen Übersetzung abhängen. Den aktuellen Attention-Modellen fehlt auch eine explizite Alignierung, eine Kernkomponente traditioneller Systeme. Stattdessen verfügen sie über einen effektiven Attention-Mechanismus, der als eine implizierte Form der Alignierung betrachtet werden kann. Eine solche starke Vereinfachung eines komplexen Prozesses erschwert die Extraktion von Alignierungen zwischen Eingabe- und Ausgabepositionen. Um die Erklärbarkeit von Attention-Modellen zu verbessern und eine besser kontrollierbare Ausgabe zu ermöglichen, wird im nächsten Teil dieser Arbeit das Attention-Modell in die Formulierung des Hidden Markov Modelles integriert, indem Alignierungen als eine Folge von verborgenen Variablen eingeführt werden. Da die Marginalisierung in der Ordnung der Alignierungsabhängigkeit exponentiell ist, wird eine einfachere und effizientere Approximation, in der keine Abhängigkeit angenommen wird, erforscht. Eine interessante Forschungsrichtung ist schließlich die Kombination von automatischer Spracherkennung und Textübersetzung hin zu Sprache-zu-Text-Übersetzung. Neben der Aneinanderreihung von unabhängig voneinander trainierten Spracherkennungs- und maschinellen Übersetzungssystemen beleuchtet diese Arbeit verschiedene End-to-End-Modelle zur direkten Übersetzung von gesprochener Sprache in einen Text. In diesem Zusammenhang werden vielversprechende Methoden aus der Spracherkennung aufgegriffen und erfolgreiche Verfahren für die direkte Modellierung etabliert. Der letzte Teil dieser Studie untersucht und entwickelt neue Ansätze zur Nutzung verfügbarer Trainingsdaten, wobei bereits in der Literatur vorgeschlagene Methoden aufgegriffen werden. Letztlich wird gezeigt, dass End-to-End-Modelle eine praxistaugliche Alternative zur Kombination von Spracherkennung und maschineller Übersetzung sein können.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 6 (Maschinelles Lernen) [122010]
Identifikationsnummern
- DOI: 10.18154/RWTH-2022-11578
- RWTH PUBLICATIONS: RWTH-2022-11578