Investigations on neural networks, discriminative training criteria and error bounds

Nußbaum-Thom, Markus; Ney, Hermann (Thesis advisor); Häb-Umbach, Reinhold (Thesis advisor)

Aachen (2020, 2021)
Doktorarbeit

Dissertation, RWTH Aachen University, 2020

Kurzfassung

Die Aufgabe der Spracherkennung ist es mittels einer statistischen Entscheidungsregel Sprachsignale in geschriebene Sprache zu transformieren. Das diskriminative Training des entsprechenden statistischen Modells ist eine wichtige Komponente, um die Wortfehlerrate des Systems zu verbessern. Allerdings existiert in der Spracherkennung eine fundamentale Diskrepanz zwischen der Verlustfunktion der Wortfehlerrate, der Verlustfunktion der Entscheidungsregel und der Verlustfunktion des diskriminativen Trainingskriteriums. Im Laufe dieser Arbeit führt die Analyse dieser Diskrepanz zu neuen Fehlerschranken und Trainingskriterien, die in praktischen Spracherkennungsexperimenten ausgewertet werden. Zusammenfassend kann man sagen, dass das statistische Modell dazu fähig ist, die Diskrepanz zwischen der Verlustfunktion der Wortfehlerrate und der Entscheidungsregel zu überwinden, wenn das diskriminative Trainingskriterium die Verlustfunktion der Wortfehlerrate berücksichtigt. Spracherkennung beruht auf der Bayes Entscheidungsregel. Diese wählt für ein gegebenes Sprachsignal den wahrscheinlichsten Satz als Erkennungsergebnis aus. Die Qualität der Erkennung wird anhand der Wortfehlerrate gemessen. Diese basiert auf der Levenshtein Verlustfunktion und gibt die minimale Anzahl von Einfüge-, Lösch- und Ersetzungsoperationen an, um den gesprochenen in den erkannten Satz zu transformieren. Doch dies birgt eine grundlegende Diskrepanz zwischen dem Qualitätsmaß und der Entscheidungsregel. Denn die Bayes Entscheidungsregel minimiert per Definition die Satzfehlerrate, was nicht zwingend zu einer Minimierung des Qualitätsmaßes - der Wortfehlerrate - führt. Um dieses Problem zu beseitigen, wäre es naheliegend, die Levenshtein Verlustfunktion in die Bayes Entscheidungsregel miteinzubeziehen. Hiermit würde die Bayes Entscheidungsregel die erwartete Levenshtein Verlustfunktion minimieren. Aber dieser Ansatz beansprucht in der Praxis zu viele Resourcen (wie Zeit und Speicher) und kann daher nur als anschließender Verarbeitungsschritt zu einer Suche nach dem wahrscheinlichsten Satz durchgeführt werden. In der Praxis müssen Modellannahmen an die Bayes Entscheidungsregel gemacht werden, da die Bayes Entscheidungstheorie auf der wahren Verteilung beruht, die durch die relativen Häufigkeiten des Sprachsignals und der gesprochenen Sätze definiert ist, und diese in der Praxis nicht bekannt sind. Um weiterhin dem Prinzip der Bayes Entscheidungsregel zu folgen, ersetzt man die wahre Verteilung durch eine Modellverteilung. Die entsprechende Entscheidungsregel heißt modellbasierte Entscheidungsregel. Die freien Parameter des Modells werden durch Trainingsdaten gelernt, zum Beispiel durch Training eines generativen Modells. Anschließend wird das Modell in mehreren Schritten durch diskriminatives Training verbessert. Die mathematische Form des Trainingskriteriums spielt für die automatische Spracherkennung eine wichtige Rolle. Zum Beispiel erreicht das Kriterium, welches die erwartete Levenshtein Verlustfunktion der gesprochenen Phonemesequenz minimieren soll, in der Praxis die besten Ergebnisse. Theoretisch ist dieses Kriterium aber schlecht fundiert. Das entsprechende Kriterium wird auch das Minimum Phone Error Kriterium genannt. Im Gegensatz dazu ist das Kreuzentropiekriterium theoretisch gut fundiert und kann anhand eines formalen Schemas aus der Kullback-Leibler Divergenz zwischen der wahren und der Modellverteilung hergeleitet werden. In diesem Schema ist die Kullback-Leibler Divergenz eine obere Schranke an die Fehlerdifferenz zwischen der Bayes und modellbasierten Entscheidungsregel. Ein solches Schema existiert für das MPE Kriterium nicht. In dieser Arbeit schließen wir diese Lücke und leiten eine theoretische Motivation für diese Art von Kriterium her. Im ersten Teil dieser Arbeit entwickeln wir ein Schema, um diskriminative Trainingskriterien aus oberen Schranken an die Fehlerdifferenz zwischen der Bayes und modellbasierten Entscheidungsregel herzuleiten. Alle untersuchten Fehlerschranken basieren auf der f-Divergenz, die eine Verallgemeinerung der Kullback-Leibler Divergenz ist. Beide Arten von Divergenzen werden verwendet, um jeweils zwei Verteilungen miteinander zu vergleichen. In dieser Arbeit formulieren wir Beweise von oberen f-Divergenz-Schranken an die Klassifikationsfehlerdifferenz. Diese Beweise werden dann erweitert zu Fehlerschranken für allgemeinere Verlustfunktionen. Sie umfassen auch den Fall der Levenshtein Verlustfunktion, und sind relevant für den Fall, in dem eine Diskrepanz zwischen dem Qualitätsmaß und der modellbasierten Entscheidungsregel vorliegt, wie zum Beispiel im Fall der Spracherkennung. Es zeigt sich, dass eine bestimmte Art von expliziten Schranken geeignet ist, um diskriminative Trainingskriterien herzuleiten. Es ist hervorzuheben, dass es vor dieser Arbeit kein Schema gab, welches das Trainingskriterium, basierend auf einer allgemeinen Verlustfunktion, wie der Levenshtein Verlustfunktion, aus einer oberen Schranke auf der Fehlerdifferenz herleiten kann. Die neuen Trainingskriterien werden in Experimenten auf praktischen Spracherkennungsdaten ausgewertet. In diesen Experimenten werden akustische Modelle, wie neuronale Netzwerke und log-lineare Mischverteilungen, diskriminativ trainiert. Wir verwenden für die Verfeinerung des akustischen Modells sowohl positionsweise als auch sequentielle Trainingskriterien. Wir zeigen, dass unsere neuen Trainingskriterien, die auf der f-Divergenz basieren, eine konkurrenzfähige Leistung im Vergleich zu konventionellen diskriminativen Kriterien erreichen. Der zweite Teil dieser Arbeit fasst unsere erfolgreiche Teilnahme an der QUAERO Projekt-evaluierung zusammen, an der wir mit konkurrenzfähigen Spracherkennungssystemen in Deutsch teilgenommen haben.

Identifikationsnummern

Downloads