Discriminative feature modeling for statistical speech recognition
Tüske, Zoltán; Ney, Hermann (Thesis advisor); Heřmanský, Hynek (Thesis advisor)
Aachen : RWTH Aachen University (2020, 2021)
Doktorarbeit
Dissertation, RWTH Aachen University, 2020
Kurzfassung
Konventionelle Spracherkennungssysteme bestehen aus Merkmalsextraktion, akustischem Modell, Sprachmodell und Suchkomponente. In der wissenschaftlichen Welt herrscht derzeit der Trend, die traditionellen Modellierungsansätze in diesen Komponenten auf künstliche neuronale Netze umzustellen. Anstatt sich auf die manuell definierte Extraktion von traditionellen Cepstrum-Koeffizienten zu verlassen, lernen und erzeugen solche mehrschichtigen Modelle Merkmale und Repräsentationen direkt aus Daten auf mehreren Ebenen. Diese Doktorarbeit untersucht und erweitert mehrere Aspekte manuell bzw. automatisch hergeleiteter Merkmale. Akustische Modelle werden herkömmlich auf Cepstrum-Koeffizienten trainiert, wobei die Signalanalyse auf der Annahme eines kurzzeit-stationären Sprachsignales basiert. Dennoch stellen mehrere akustische Phänomene diese Annahme in Frage. Im ersten Teil der Arbeit wird diese Annahme deshalb abgeschwächt und es wird ein neues nicht-stationäres Signalverarbeitungs-Framework für die Analyse von stimmhaften Sprachlauten eingeführt. Aus der genaueren Analyse werden geräuschunempfindliche Merkmale hergeleitet, die ausführlich in standardisierten Vergleichstest für verrauschte Spracherkennung evaluiert werden. Konventionelle akustische Modelle werden auf den Ergebnissen von Merkmalsgewinnungsverfahren trainiert, die manuell vorgegeben wurden. Mit dem Aufkommen des Deep Learning und der Verfügbarkeit von Massendaten stellt sich jedoch die Frage, ob solche Pipelines noch notwendig sind. Die vorliegende Arbeit untersucht, ob die direkte akustische Modellierung des Zeitsignals eine geeignete Option ist. Es wird analysiert, welche Repräsentationen ein tiefes neuronales Netz aus dem hochkomplexen eindimensionalen akustischen Signal herleitet. Anschließend untersuchen wir, ob eine apriori gewählte neuronale Netzstruktur, die auf dem Sprachsignalverarbeitungswissen von Jahrzehnten basiert, vorteilhaft ist. Für akustische Modellierung mit neuronalen Netzen sind die zwei meistgenutzten Ansätze das Tandem-Modell und das hybride Hidden Markov Modell. Das hybride Konzept modelliert die Emissionswahrscheinlichkeiten der Markov-Zustände direkt mit neuronalen Netzen, und ist ein defacto-Standard geworden. Der Tandem-Ansatz ist dennoch gleich mächtig, indem die neuronalen Netze als Merkmalextraktion für Gaußsche Mischverteilung genutzt werden. Nach Anwendung moderner neuronaler Netzstrukturen werden mehrere Modifikationen vorgeschlagen, um den Tandem-Modellierungsansatz zu verbessern. Darüber hinaus wird eine theoretische Beziehung zwischen hybriden und Tandem-Modellen präsentiert, und es wird gezeigt, dass ein optimiertes Tandem-Modell nicht schlechter als ein ähnliches hybrides Model sein kann. Hochwertig transkribierte Sprachdaten zählen zu den höchsten Kostenfaktoren in der Entwicklung von Spracherkennungssystemen für eine neue Sprache. Die Arbeit präsentiert einen effizienten, auf multilingualen neuronalen Netzen basierten Rahmen, damit die in anderen Sprachen gesammelten Ressourcen wiederverwendbar werden. Durch simultanes Trainieren eines Netzes auf mehreren Sprachen wird das Modell gezwungen, sprachenübergreifende Merkmale zu extrahieren. Experimente zur Spracherkennung und zur Schlüsselwortsuche zeigen, dass solche Repräsentationen als exzellente Initialisierungen dienen können und die Systemqualität sowohl für Sprachen mit geringeren als auch für Sprachen mit reichen Ressourcen erheblich verbessern können. Die Arbeit führt auch einen auf multilingualen Merkmalen basierten Rahmen zur schnellen Systementwicklung ein, der eine annehmbare Leistung in extrem kurzer Zeit und unter der Bedingung von außergewöhnlich kleinen Datenmengen ermöglicht. Motiviert durch den Erfolg von akustischen multilingualen Merkmalen, untersuchen wir das Training von Neuronale-Netze-Sprachmodellen auf mehreren Domänen. Diese Arbeit zeigt, dass die Repräsentation der Sprachmodell-Historie in einem gemeinsamen, datengetriebenen Merkmalsraum eine effiziente Domänenanpassung mit limitierter Datenmenge durch log-linearen Interpolationsansatz ermöglicht. Außerdem führt solche Interpolation von Multi-Domän-Netzen zu einem kompakten finalen Modell. Das multi-Domän Modellframework wird mit vorwärtsgerichteten sowie rekurrenten LSTM-Netzwerken auf mehreren Spracherkennungs-Aufgaben evaluiert, und Sprachmodelle werden auf Korpora mit Milliarden Wörtern trainiert. Darüber hinaus werden in jüngerer Zeit vorgeschlagene Methoden zur Verbesserung des LSTM-Modells implementiert und die effektive Kontextlänge der besten Modelle untersucht.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 6 (Maschinelles Lernen) [122010]
Identifikationsnummern
- DOI: 10.18154/RWTH-2021-01241
- RWTH PUBLICATIONS: RWTH-2021-01241