Alignment models for recurrent neural networks

Doetsch, Patrick; Ney, Hermann (Thesis advisor); Juan, Alfons (Thesis advisor)

Aachen (2020)
Doktorarbeit

Dissertation, RWTH Aachen University, 2020

Kurzfassung

Heutige Sprach- und Handschrifterkennungssysteme nutzen neuronale Netze um das akustische Signal bzw. das Bild mit Handschrift in Text umzuwandeln. Neuronale Netze lernen die notwendigen Parameter dabei durch transkribierte Daten in einer Trainingsphase. Ursprünglich wurden dabei nur vorwärtsgerichtete neuronale Netze genutzt, welche stets mit einer Alignierung von Merkmalsvektoren und Ausgabesymbolen eines vorher trainierten Gaußschen hidden Markov Modells initialisiert werden mussten, um eine gute Leistung zu erzielen. Seit einiger Zeit ist bekannt, dass rekurrente neuronale Netzarchitekturen ihre nicht-rekurrenten Gegenstücke an Leistung übertreffen, mit dem Long Short-Term Memory als bekanntestes Beispiel. Rekurrente neuronale Netze können die zeitliche Struktur der Daten direkt modellieren und sind somit in der Lage dynamische Änderungen an der Alignierung vorzunehmen um sie dem Modell besser anzupassen. In dieser Arbeit werden wir die Anwendungen und Trainingsverfahren rekurrenter neuronaler Netzarchitekturen für die Sprach- und Handschrifterkennung untersuchen. Im Rahmen dieser Arbeit wurde hierfür ein Softwarepaket für neuronale Netze entwickelt, welches erlaubt hardware-beschleunigtes Training and die Erkennung von Sprache und Handschrift durchzuführen. Die Software ermöglicht es, sowohl rekurrente als auch rein vorwärtsgerichtete neuronale Netzarchitekturen zu trainieren, und ist in der Lage, sehr große Datenmengen auf unterschiedlichen Hardwareimplementierungen parallel zu verarbeiten. Trainierte Modelle können für die Erkennung direkt in das Spracherkennungssystems der RWTH Aachen geladen werden. Unsere Experimente zeigen, dass rekurrente Modelle bessere Erkennungsergebnisse erzielen als rein vorwärts gerichtete Strukturen, und wir demonstrieren diese Leistungsfähigkeit in mehreren Experimenten zur Handschrifterkennung. Weitere wissenschaftliche Beiträge beinhalten die Entwicklung von Datenanordnungsverfahren, durch die das Training erheblich beschleunigt wird. Mithilfe unseres Softwarepakets evaluieren wir daraufhin auf neuronalen Netzen basierte Methoden für die Handschrifterkennung. Unser Fokus liegt hierbei auf rekurrenten Topologien, in denen die Bilder in einer eindimensionalen oder zweidimensionalen Weise verarbeitet werden und wir untersuchen dabei verschiedene Architekturen und Implementierungsdetails. Die Leistungsfähigkeit unserer vorgestellten Systeme beurteilen wir auf bekannten Datensätzen für Handschrifterkennung und wir vergleichen unsere Systeme mit den Systemen anderer Gruppen in Wettbewerben. Im letzten Teil der Arbeit untersuchen wir, welche Auswirkungen sich ergeben, wenn das Alignierungsproblem innerhalb rekurrenter neuronaler Netze behandelt wird. Wir beschreiben Probleme der Überanpassung bei der Anwendung herkömmlicher Alignierungsverfahren und analysieren Eigenschaften des "Connectionist Temporal Classification" Fehlerkriteriums. Desweiteren untersuchen wir Methoden die völlig ohne die externe Berechnung von Alignierungen auskommen, und stattdessen auf einer speziellen Komposition zweier rekurrenter neuronaler Netze basieren, die es ermöglicht, Merkmalsvektoren direkt in Ausgabesymbole zu transkribieren. Auf der Basis dieser Ergebnisse entwickeln wir ein neuartiges invertiertes Alignierungsverfahren, welches in der Lage ist, einige der erkannten Limiterungen zu vermeiden. Wir evaluieren unsere Methode auf Sprach- und Handschrifterkennungsdaten.

Identifikationsnummern

Downloads