Neural machine translation for low-resource scenarios
- Neuronale maschinelle Übersetzung für ressourcenarme Szenarien
Kim, Yunsu; Ney, Hermann (Thesis advisor); Juan-Císcar, Alfons (Thesis advisor)
Aachen : RWTH Aachen University (2022)
Doktorarbeit
Dissertation, RWTH Aachen University, 2022
Kurzfassung
Die maschinelle Übersetzung wird seit Jahrzehnten hauptsächlich durch statistisches Lernen zweisprachiger Textdaten angegangen. In dem jüngsten Paradigma mit neuronalen Netzen erfordert der Aufbau eines maschinellen Übersetzungssystems mehr Daten als je zuvor, um die hochmoderne Modellierungskapazität optimal zu nutzen und eine angemessene Leistung zu erzielen. Leider gibt es für viele Sprachpaare und Domänen nicht genügend zweisprachige Korpora. Um die Abdeckung der neuronalen maschinellen Übersetzung zu erweitern, werden in dieser Arbeit effektive Methoden zur Verbesserung der Leistung in solchen ressourcenarmen Szenarien untersucht. Zunächst untersuchen wir die Verwendung einsprachiger Korpora für die neuronale maschinelle Übersetzung. Wir optimieren die logarithmische lineare Integration eines Sprachmodells in die Übersetzungsdecodierung. Als Nächstes überprüfen wir verschiedene Strategien zur Erzeugung synthetischer Daten und vergleichen ihre empirische Leistung im Maßstab. Darüber hinaus untersuchen wir das Vorlernen und das Multitask-Lernen eines Übersetzungsmodells mit Sprachmodellierung und den Cloze-Task-Modellierungszielen. Wir vergleichen alle diese Methoden empirisch, um die beste Vorgehensweise für halbüberwachtes Lernen zur Kompensation der Leistung in einem Fall mit geringen Ressourcen bereitzustellen. Zweitens untersuchen wir den mehrsprachigen Transfer von einer Einstellung mit hohen Ressourcen zu einer Einstellung mit niedrigen Ressourcen. Diese Studie deckt zwei pragmatische Szenarien ab: Übertragung zwischen den Sprachpaaren, deren Zielseite gemeinsam ist, und Übertragung von mehreren Sprachpaaren basierend auf einer Pivot-Sprache, z.B. für ein nicht englisches Sprachpaar mit Englisch als Pivot. Für beide Szenarien entwickeln wir eine Reihe von sequentiellen Übertragungstechniken, um die Effektivität der Übertragung zu maximieren. Die Techniken werden gründlich mit halbüberwachten Baselines, mehrsprachigen Modellen und kaskadierten Architekturen verglichen. Zuletzt untersuchen wir unbeaufsichtigtes Lernen für die neuronale maschinelle Übersetzung, bei der nur einsprachige Korpora zum Trainieren eines Übersetzungsmodells verwendet werden. Wir behandeln die Methoden von der klassischen Entschlüsselung bis zum Sequenz-zu-Sequenz-Training und geben einen historischen Überblick über die unbeaufsichtigte Übersetzung. Zur Entschlüsselung erweitern wir sein primitives Framework auf die Übersetzung großer Vokabeln, indem wir die Lexikongrößen im Training reduzieren und Lexika für neuronale Netze verwenden. Darüber hinaus integrieren wir ein mehrsprachiges Lexikonmodell zur Worteinbettung und wenden einen Autoencoder mit neuronaler Entrauschung als Nachbearbeitung an, was zu einer neuartigen kaskadierten Kombination führt. Dann analysieren wir die ausgefeilteste Methode zum Erlernen eines Sequenz-zu-Sequenz-Modells, einschließlich umfangreicher experimenteller Ergebnisse zu zahlreichen Dateneinstellungen, um herauszufinden, unter welchen Bedingungen unbeaufsichtigtes Lernen in der Praxis nützlich ist.
Identifikationsnummern
- DOI: 10.18154/RWTH-2022-02241
- RWTH PUBLICATIONS: RWTH-2022-02241