Maximum entropy models for sequences: scaling up from tagging to translation

Lehnen, Patrick; Ney, Hermann (Thesis advisor); Yvon, Franccois (Thesis advisor)

Aachen (2017, 2018) [Doktorarbeit]

Seite(n): 1 Online-Ressource (xi,118 Seiten) : Illustrationen

Kurzfassung

Maximum-Entropy-Ansätze für Sequenzen und Conditional Random Fields im Speziellen haben bereits für eine größere Anzahl an Aufgaben im Bereich des maschinellen Lernens ihre Effektivität bewiesen. Als Teil dieser Doktorarbeit wird dies am Beispiel des semantischen Taggens aus dem Teilbereich des Sprachverstehens gezeigt. Dort wird gezeigt, dass eine ausführliche Merkmalsauswahl und eine Einstellung des Regularisierungsparameters ausreicht, um ein System zu bauen, was einer Reihe maschineller Lernverfahren überlegen ist. Als konkurrierende Ansätze wurden Support-Vektor-Maschinen, phrasen-basierte Übersetzung, Maximum Entropy Markov-Modelle, Dynamic Bayesian Networks und statistische Finite State Transducer ausgewählt. Möchte man Conditional Random Fields auf andere Aufgaben anwenden, stößt dieser Ansatz an seine Grenzen. Für semantisches Tagging im Rahmen des Sprachverstehens mit einem Mehr-Ebenen-Tagging werden Einschränkungen im Ausgabevokabular benötigt, für eine Graphem-zu-Phonem Umwandlung müssen die Conditional Random Fields eine implizite Segmentierung und sehr große Merkmalssätze unterstützen und für statistische maschinelle Übersetzung wird eine Lösung für die großen Ein- und Ausgabevokabularien, komplexe Umordnungen der Wörter und noch größerer Merkmalssätze benötigt. Diese Doktorarbeit präsentiert Lösungen zu diesen Anforderungen. Die Conditional RandomFields werden mit Hilfe von statistischen Automaten modelliert, was eine Einschränkung des Ausgabevokabulars einfach macht. Dieser Ansatz wird erweitert mit impliziten Segmentierungen, Elastic-Net Regularisierung, sparsen Forward-Backward Berechungnen, Approximationen (Pruning)im Training und zwischengelagerten Klassen in der Ausgabeschicht. Abschließend wird alles zusammengefügt, um mit Conditional Random Fields statistische maschinelle Übersetzung zu modellieren. Die beste Implementierung zur Verbesserung der statistischen maschinellen Übersetzung wird erreicht mit einer Anpassung der Zielfunktion zur Maximierung des Bleu-Erwartungswerts. Dieser Ansatz verendet eine ähnliche Merkmalsextraktion und dieselbe Parameterberechnung anhand des RPROP Verfahrens. Jedoch wurden das phrasenbasierte oder hierarchische Grundsystem besser genutzt, indem n-best Listen für die Näherung des Parametertrainings verwendet werden.

Identifikationsnummern

  • REPORT NUMBER: RWTH-2018-223512

Downloads