Advancing neural language modeling in automatic speech recognition

  • Fortschritte bei der neuronalen Sprachmodellierung in der automatischen Spracherkennung

Irie, Kazuki; Ney, Hermann (Thesis advisor); de Mori, Renato (Thesis advisor)

Aachen (2020)
Doktorarbeit

Dissertation, RWTH Aachen University, 2020

Kurzfassung

Die statistische Sprachmodellierung ist eines der grundlegenden Probleme bei der maschinellen Verarbeitung natürlicher Sprache. In den letzten Jahren hat die Sprachmodellierung große Fortschritte gemacht, durchaktiven Arbeitsaufwand bei der Anwendung künstlicher neuronaler Netzwerke, insbesondere der rekurrenten Netzwerke. Die Anwendung neuronaler Sprachmodelle auf die Spracherkennung ist inzwischen gut etabliert und allgegenwärtig. Dennoch argumentieren wir, dass das volle Potenzial der auf neuronalen Netzwerken basierenden Sprachmodellierung noch nicht ausgeschöpft ist. In dieser Arbeit entwickeln wir die neuronale Sprachmodellierung in der automatischen Spracherkennung weiter. Dazu untersuchen wir eine Reihe neuer Perspektiven. Wir untersuchen die neu vorgeschlagenen Transformer-Modelle für die Anwendung in der Sprachmodellierung. Die für die maschinelle Übersetzung ursprüngliche vorgeschlagene Transformer-Modellarchitektur wird untersucht und an die spezifischen Anforderungen der Sprachmodellierung angepasst. Sehr tiefe Modelle mit etwa hundert Schichten werden entwickelt. Wir führen einen detaillierten Vergleich mit den Long-Short-Term-Memory basierten Sprachmodellen. Bei der Skalierung der Sprachmodellierung auf größere Datensätze erscheint die Vielfalt der Daten als Chance und Herausforderung. Der aktuellen besten neuronalen Sprachmodellierung fehlt ein Mechanismus zur Handhabung unterschiedlicher Daten aus verschiedenen Domänen, damit ein einziges Modell in verschiedenen Domänen gut funktioniert. In diesem Zusammenhang stellen wir eine domänenrobuste Sprachmodellierung mit neuronalen Netzwerken vor. Wir stellen zwei Lösungen vor. Als erste Lösung schlagen wir eine neue Art von adaptiver Mixture-of-Experts Modellen vor, die vollständig auf neuronalen Netzwerken basieren. Dieser Ansatz hat einen Nachteil der sperrigen Modellgröße. Im zweiten Ansatz untersuchen wir daher die Knowledge-Distillation aus Expertenmodellen mit mehreren Domänen. Methoden zur praktischen Anwendung der Knowledge-Distillation auf die Sprachmodellierung mit großem Vokabular werden vorgeschlagen und ausführlich untersucht. Schließlich untersuchen wir das Potenzial neuronaler Sprachmodelle zur Nutzung von langen satzübergreifenden Kontexten für verbesserte Spracherkennung. Die geeignete Trainingsmethode für ein solches Szenario ist in den existierenden Arbeiten noch nicht ausreichend erforscht. Wir führen einen systematischen Vergleich der Trainingsmethoden durch, wodurch wir Verbesserungen bei der satzübergreifenden Spracherkennung erzielen. Im gleichen Zusammenhang untersuchen wir die Robustheit verschiedener Sequenzlängen sowohl für rekurrente Long-Short-Term-Memory neuronale Netzwerke als auch für Transformer-Modelle. Eine solche Robustheit ist eine der grundlegenden Eigenschaften, die wir uns in neuronalen Netzwerken mit der Fähigkeit zur Handhabung von Kontexten variabler Länge wünschen. In der gesamten Arbeit gehen wir diese Themen mit neuen Perspektiven der neuronalen Sprachmodellierung an, wobei wir die traditionelle Weise der Sprachmodellierung in der automatischen Spracherkennung beibehalten.

Identifikationsnummern

Downloads