Domain adaptation for statistical machine translation

Mansour, Saab; Ney, Hermann (Thesis advisor); Sima'an, Khalil (Thesis advisor)

Aachen (2017) [Doktorarbeit]

Seite(n): 1 Online-Ressource (ix, 112 Seiten) : Illustrationen

Kurzfassung

In dieser Dissertation wird ein allgemeines Verfahren zur Anpassung von statistischer maschineller Übersetzung (SMT) an eine vorgegebene Domäne entwickelt und untersucht. Das Verfahren basiert auf der Nutzung der verfügbaren Domänen-relevanten Trainingsdaten, sowie einem Bewertungssystem für die Differenzierung von Trainingsinstanzen aus anderen Domänen. Angepasst werden eine Reihe von verschiedenen Modellen aus dem Übersetzungsprozess, aber der Schwerpunkt liegt auf der weniger erforschten Adaption des Phrasenmodells. Das Sprachmodell wird in vielen Anwendungen genutzt, wie z.B. der Spracherkennung und der Schrifterkennung, und die Domänenanpassung dieses Modells wurde bereits ausgiebig erforscht. Ein bestehendes, Domänen-unspezifisches System so abzuändern, dass es auf Evaluierungsdaten aus einer vorgegebenen Zieldomäne bessere Ergebnisse liefert, bezeichnet man als Domänenanpassung oder Domänenadaption. Zur Erfüllung dieser Aufgabe wurde in der Vergangenheit vorgeschlagen, Trainingsdaten unterschiedlich zu gewichten. Besonders hervorzuheben ist frühere Forschung, in der Sprachmodellperplexitäten für die Gewichtung angewandt wurden. In dieser Arbeit wird ein allgemeines Verfahren für diese Gewichtung eingeführt. Darüber hinaus werden einige neuartige Bewertungsmodelle für die Gewichtung entwickelt, die auf Übersetzungsmodellen basieren. Wir untersuchen die Annahme, dass Übersetzungsmodell-Bewertungen für die Anpassung von Übersetzungsmodellen relevanter sind als Bewertungen durch das Sprachmodell, da sie bilinguale Abhängigkeiten, die für die Übersetzung wichtig sind, besser beschreiben. Der Hauptteil dieser Dissertation beinhaltet die Entwicklung von verschiedenen Bewertungskriterien für die Anpassung. Neu sind unter anderem die Verwendung von Perplexitäten des IBM-1 Modells, sowie die noch stärker hervorzuhebende Entwicklung einer Methode zur Bewertung der Relevanz für die Zieldomäne mithilfe des Übersetzungsmodells. Die Methoden werden durchgehend auf weitverbreiteten Arabisch-Englischen und Deutsch-Englischen Datensätzen untersucht, wobei signifikante Verbesserungen der Übersetzungsqualität beobachtet werden. Ein Nachteil des Verfahrens ist die Abhängigkeit von Domänen-relevanten Trainingsdaten. Adaption ohne explizite bilinguale Domänen-relevante Trainingsdaten wird in dieser Arbeit ebenfalls untersucht. Hierzu werden monolinguale Testdaten aus der Quellsprache verwendet, um die Domäneneinteilung vorzunehmen. Wir zeigen, dass die neuartige Anwendung von automatisch übersetzten Testdaten aus der Quellsprache ein SMT-System verbessern kann, das dem aktuellen Stand der Technik entspricht. Weiterhin erweitern wir den Begriff der Domäne mit Dialektinformation. In dieser Arbeit wird insbesondere die Übersetzung aus dem ägyptischen Dialekt der arabischen Sprache nach Englisch angegangen. Die von uns entwickelte Dialekt-Klassifizierungsmethode erreicht wettbewerbsfähige Genauigkeit. Der Klassifizierer wird dann in mehreren Techniken angewandt, um ein unspezifisches SMT-System zu adaptieren, und es werden Verbesserungen gezeigt. Zuletzt wird unsere Forschung zur Segmentierung der arabischen Sprache für maschinelle Übersetzung präsentiert. Arabisch ist eine morphologisch anspruchsvolle Sprache. Jedes Wort besteht aus mehreren Morphemen, die mehreren englischen Wörtern entsprechen. In dieser Dissertation implementieren wir verschiedene Segmentierungschemata und -modelle. Wir zeigen, dass die Qualität der Segmentierungsmethoden je nach Domäne variiert, und dass das Schema sorgfältig durchdacht werden muss, um die bestmögliche Performanz sicherzustellen. Es wird eine Strategie zur Kombination verschiedener Modelle vorgestellt und das optimale Vorgehen hierbei erörtert.

Identifikationsnummern

  • REPORT NUMBER: RWTH-2018-223849

Downloads