Neural network based modeling and architectures for automatic speech recognition and machine translation
Zeyer, Albert; Ney, Hermann (Thesis advisor); Watanabe, Shinji (Thesis advisor); Leibe, Bastian (Thesis advisor)
Aachen : RWTH Aachen University (2022, 2023)
Doktorarbeit
Dissertation, RWTH Aachen University, 2022
Kurzfassung
Unsere Arbeit zielt darauf ab, das Feld und die Anwendung von neuronalen Netzwerken (NN) voranzubringen, Sequenz-zu-Sequenz-Modelle voranzutreiben durch Erweiterungen und Entwicklung neuer Modelle, und die Trainingsmethoden der Modelle zu verbessern. Wir führen die erste umfassende Studie von Long Short-Term Memory (LSTM) akustischen Modellen durch und verbessern sie gegenüber unserem vorwärtsgericheten (feed-forward) neuronalen Netzwerk (FFNN) um 16% relativ. Wir waren unter den Ersten, bidirektionale LSTMs (BLSTMs) für die Online-Erkennung eingesetzt haben. Wir haben erfolgreich konvolutionelle (convolutional) neuronale Netzwerk (CNN) Modelle trainiert, die mit unserem BLSTM-Modell konkurrenzfähig sind. Wir sind die ersten, die verschiedene Layer-normalisierte (LN) LSTM Varianten vergleichen, um direkte und umfassende Studien durchzuführen. Wir studieren die Auswirkungen auf Trainingsstabilität, Konvergenz und Varianz. Wir erhalten Verbesserungen um 10% relativ gegenüber der Standard BLSTM Baseline. Außerdem führen wir eine umfassende Studie zu Transformer-Modellen im Vergleich zum LSTM durch. Wir untersuchen Transformer-Sprachmodelle und erreichen Stand-der-Technik-Ergebnisse mit 6% relativen Verbesserungen gegenüber dem besten LSTM. Als Alternative zu den hybriden neuronalen Netzwerk (NN)- hidden Markov Modelle (HMM) untersuchen wir Sequenz-zu-Sequenz-Modelle wie z.B. Attention-basierte Encoder-Decoder-Modelle. Wir entwickeln moderne Attention-basierte Modelle für maschinelle Übersetzung und Spracherkennung, die mit Byte-Pair encodierten (BPE) Teilwörtern arbeiten. Monotonizität und online Erkennungliefern die Motivation für unsere einfache Variante der lokalen Attention. Wir erweitern diese Arbeit um einen prinzipiellen Ansatz mit expliziter latenten Variable, und führen Latent-Attention-Modelle ein,mit Hard-Attention als Spezialfall, die eine neue Klasse von segmentellen Modellen darstellen. Wir zeigen die Äquivalenz von segmentellen und Transducer-Modellen, und schlagen eine neue Klasse von verallgemeinerten und erweiterten Transducer-Modellen vor,die akkurater sind und besser generalisieren als unsere Attention-Modelle.Wir führen eine umfassende Studie über alle existierenden Varianten aus der Literatur als Spezialfälle unseres verallgemeinerten und erweiterten Modells durch und zeigen die Effektivität unserer Erweiterungen. Wir beobachten, dass die Trainingsstrategien die wichtigste Rolle für eine gute Leistung spielen. Wir untersuchen auf Trainingskriterien, Optimierungstechniken, Lernratensteuerung, Vortrainierung, Regularisierung und Daten Augmentierung. Wir schlagen neuartige Vortrainierungsmethodenfür LSTM und Ende-zu-Ende-Modelle vor, bei denen das neuronale Netzwerk in Tiefe und Breite vergrößert wird. Wir untersuchen verschiedene Arten der Trainingsvarianz aufgrund von Zufälligkeiten beim Trainieren verursacht durch variierende Zufallsseeds und nicht-deterministische Trainingsalgorithmen. Wir sind unter den ersten, die einen hohen Einfluss der Anzahl der Trainingsepochen beobachten und dokumentieren. Wir schlagen ein neues verallgemeinertes Trainingsverfahren für hybride NN-HMM vor, bei dem die volle Summe über alle Alignierungen durchgeführt wird, und identifizieren Connectionist Temporal Classification (CTC) als einen Spezialfall davon. Wir erarbeiten eine mathematische Analyse über das spitze Verhalten von CTC. Dies ist die erste Arbeit, welche das spitze Verhalten und Konvergenzeigenschaften von CTC auf einer mathematischen Ebene erklären und herleiten kann. Wir entwickeln große Anteile von RETURNN als effizientes und flexibles Software Framework einschließlich einer effizienten Suchimplementierung um alle Experimente durchzuführen. Dieses Framework und die meisten unserer Ergebnisse und Baselines werden innerhalb des Teams und darüber hinaus benutzt. Alle unsere Arbeiten sind publiziert und der gesamte Code und alle Setups sind online verfügbar.
Identifikationsnummern
- DOI: 10.18154/RWTH-2023-00619
- RWTH PUBLICATIONS: RWTH-2023-00619