Towards large vocabulary continuous sign language recognition: from artificial to real-life tasks
- Auf dem Weg zur kontinuierlichen Gebärdenspracherkennung mit großem Vokabular: Von künstlichen zu lebensechten Daten
Koller, Oscar Tobias Anatol; Ney, Hermann (Thesis advisor); Bowden, Richard (Thesis advisor)
Aachen (2020)
Doktorarbeit
Dissertation, RWTH Aachen University, 2020
Kurzfassung
Gehörlose stellen eine kulturelle und sprachliche Minderheit dar, deren Zugang zu Informationen und Kommunikation aufgrund einer oral-auditiv ausgerichteten Gesellschaft stark eingeschränkt ist. Diese Arbeit behandelt kontinuierliche Gebärdenspracherkennung mit großem Vokabular, welche verspricht, Inklusion zu ermöglichen und das Kommunikationsproblem zwischen Gehörlosen und Hörenden zu lösen. Der gesamte Kommunikationsablauf verläuft hierbei bidirektional und kann von Gebärden- zu Lautsprache in ein Erkennungs-, Übersetzungs- und Syntheseproblem zerlegt werden. Die Gebärdenspracherkennung behandelt nur eines der komplexen Unterprobleme in diesem Gesamtsystem. Sie verfolgt das Ziel, die in einem Gebärdenvideo artikulierte Sequenz von Gebärden zu erkennen. Die Gebärdenübersetzung, welche nicht Teil dieser Arbeit ist, sortiert die Sequenz von Glossen um und übersetzt sie in gesprochene Sprache. Im Rahmen dieser Arbeit werden Gebärden durch Glossen transkribiert, welche semantische Beschreibungen der Gebärden widerspiegeln. Es wird vorausgesetzt, dass das Gebärdenvideo und die Glossannotation die gleiche zeitliche Reihenfolge innehaben. Automatische Gebärdenspracherkennung ist eine multidisziplinäre Aufgabe, die aus benachbarten Feldern wie beispielsweise der Spracherkennung, der Computer Vision und der Linguistik schöpft. Ursprünglich war Forschung im Bereich der Gebärdenspracherkennung sehr isoliert und ohne gegenseitigen Bezug. Einzelne Forschergruppen erstellten ihre eigenen limitierten Datensätze und arbeiteten damit. Das führte dazu, dass die Daten und die daraus resultierenden Arbeiten die Komplexität von Gebärdensprachen häufig nur ansatzweise widerspiegeln konnten. Oft umfassten die verwendeten Datensätze nicht einmal kontinuierliche Gebärdensprache, sondern isolierte, einzelne Gebärden. Üblicherweise wurden nur sehr kleine Vokabulare abgedeckt (meist weniger als 100 unterschiedliche Gebärden). Keine der bisherigen Arbeiten behandelte realistische und uneingeschränkte Gebärdensprache, wie sie bei natürlicher menschlicher Interaktion angetroffen wird. Die Auswahl von Gebärden, die Struktur der Sätze, die Geschwindigkeit des Gebärdens, die Ausdrucksweise und der Dialekt wurden stets stark kontrolliert und extern festgelegt. Diese Arbeit zielt darauf ab, Gebärdenspracherkennung in realistischere Szenarien zu überführen. Um dies zu erreichen, wurden erste realistische Gebärdensprachkorpora erstellt, die ein großes Vokabular (über 1000 Gebärden) enthalten und auf kontinuierlicher Gebärdensprache basieren. Die Korpora umfassen Aufnahmen aus dem Fernsehen, die realistische, unkontrollierte Gebärdensprache von professionellen Dolmetschern beinhalten. Diese Daten sind deutlich komplexer in der Erkennung als bisher bearbeitete Korpora und werden im Rahmen dieser Arbeit kostenfrei öffentlich zur Verfügung gestellt. Auf dieser herausfordernden Aufgabe evaluieren wir konventionelle statistische Gebärdenspracherkennungssysteme basierend auf GMM-HMMs mit manuell entwickelter Merkmalsextraktion. Daraufhin nutzen wir aktuelle Fortschritte aus dem Bereich des Deep Learning und präsentieren ein hybrides CNN-LSTM-HMM Modell, das den erzielten Erkennungsfehler halbiert. Wir analysieren die Effekte verschiedener Designentscheidungen des Erkennungssystems, um anderen Forschern wertvolle Einsichten zu ermöglichen. Schlussendlich entwickeln wir einen Lernalgorithmus, dem mehrdeutige und ungenaue Annotationen genügen, um effizient Gebärdenuntereinheiten, wie etwa artikulierte Handformen oder Mundformen, im Gebärdenmaterial zu entdecken. Möglich wird dies durch hybride Multi-Stream CNN-LSTM-HMMs.
Identifikationsnummern
- DOI: 10.18154/RWTH-2020-11447
- RWTH PUBLICATIONS: RWTH-2020-11447