Data-driven deep modeling and training for automatic speech recognition

  • Datengetriebene tiefe Modellierung und Training für automatische Spracherkennung

Golik, Pavel; Ney, Hermann (Thesis advisor); Häb-Umbach, Reinhold (Thesis advisor)

Aachen (2020)
Doktorarbeit

Dissertation, RWTH Aachen University, 2020

Kurzfassung

Viele der aktuell besten Systeme zur automatischen Spracherkennung basieren heute auf hybriden Hidden Markov Modellen (HMM), die auf Wahrscheinlichkeistschätzung durch das akustische und das Sprachmodell angewiesen sind. Der auf dynamischer Programmierung basierte Decoder benutzt diese Größen, um die wahrscheinlichste Wortfolge zu finden, die zu einem gegebenen Audio-Signal passt. Dafür müssen die Parameter des akustischen Modells zuvor auf transkribierten Aufnahmen trainiert werden. Das akustische Training steht im Fokus dieser Arbeit. Das Eingabesignal wird üblicherweise als Folge von relativ niedrigdimensionalen reelwertigen Vektoren repräsentiert, die die Energieverteilung in kurzen Analysefenstern erfassen. Die konventionelle Extraktion akustischer Merkmale basiert auf Zeit-Frequenz-Analyse des eindimensionalen Eingabesignals, die mithilfe von Kurzzeit-Fourier-Transformation oder einer Filterbank berechnet wird. Im ersten Teil dieser Arbeit werden wir uns mit der folgenden Frage befassen: in welchem Ausmaß kann die Merkmalsextraktion vom akustischen Modell anhand von transkribierten Aufnahmen gelernt werden, ohne die genaue Verarbeitungsschritte explizit vorgegeben zu bekommen? Wir werden zeigen, dass ein künstliches neuronales Netz die Verteilung über die Zustände des HMM aus zeitlicher Wellenform lernen kann. Des Weiteren zeigen wir, dass die Eingabeschicht eines trainierten neuronalen Netzes ebenfalls eine Zeit-Frequenz-Analyse des Eingabesignals durchführt. Von dieser Interpretation inspiriert, werden wir die vollständig verbundene Eingabeschicht durch eine Faltungsschicht ersetzen, da Faltung eine natürliche Operation zur Filterung von Zeitsignalen darstellt und sehr gut geeignet ist, um zeitinvariante Muster zu repräsentieren. Obwohl die Erkennungsgenauigkeit eines solchen Systems noch nicht ganz an die einer manuellen Merkmalsextraktion heranreicht, zeigen wir, dass die Fehlerraten insgesamt sehr ähnlich sind. Im zweiten Teil beschäftigen wir uns mit der Zielfunktion, die beim Trainieren von neuronalen Netzen optimiert wird. Es wird oft angenommen, dass die Softmax-Operation in der Ausgabeschicht des Modells die Minimierung von Kreuzentropie erfordert. Dabei ist kein theoretischer Grund für eine solche Notwendigkeit bekannt. Es ist bekannt, dass sowohl Kreuzentropie als auch die mittlere quadratische Abweichung eine obere Schranke bilden für die Differenz zwischen dem Bayes'schen Fehler und dem Modellfehler (d.h. die Differenz, die dadurch entsteht, dass die Entscheidung anhand eines Modells und nicht der wahren Verteilung getroffen wird). Wir werden demonstrieren, dass es durchaus möglich ist, ein hybrides akustisches Modell mit Softmax mittels Minimierung der mittleren quadratischen Abweichung zu trainieren. Wir werden die Konvergenz analysieren und durch Initialisierung mit einem mit Kreuzentropie vortrainierten Modell verbessern. Im dritten Teil untersuchen wir verschiedene Strategien zur Verwendung von i-vectors für die Adaption des akustischen Modells. Wir zeigen, dass die i-vectors die Wortfehlerrate auf mehreren Evaluationscorpora konsistent reduzieren. Wir analysieren die Integrationsmöglichkeiten und die Parametrisierung der i-vector Extraktion. Im vierten und letzten Teil dieser Arbeit wenden wir diese und andere Methoden zur akustischen Modellierung auf die Schlagwortsuche an. Dabei konzentrieren wir uns auf Sprachen mit geringer Resourcen-Verfügbarkeit, für die es nur eine sehr begrenzte Menge an transkribierten Aufnahmen und anderen linguistischen Resourcen gibt. Wir stellen eine Reihe von Experimenten vor, die im Rahmen des internationalen Projektes IARPA Babel durchgeführt wurden. Dabei stehen die multilingualen ``Flaschenhals-Merkmale'' im Mittelpunkt, die mithilfe von speziell entworfenen neuronalen Netzen erstellt werden, sowie Methoden zum teil-überwachten akustischen Training, graphemischer Aussprachemodellierung und Schlagwortsuche von Begriffen, die zuvor vom System nicht beobachtet wurden.

Identifikationsnummern

Downloads