Automatic sign language recognition : from video corpora to gloss sentences
- Automatische Gebärdenspracherkennung: Von Videokorpora zu Glossensätzen
Forster, Jens; Ney, Hermann (Thesis advisor); Rigoll, Gerhard (Thesis advisor)
Aachen (2020)
Doktorarbeit
Dissertation, RWTH Aachen University, 2020
Kurzfassung
In dieser Doktorarbeit untersuchen wir kontinuierliche, automatische Gebärdenspracherkennung (AGSE) mit großem Vokabular auf monokularen Videosequenzen mittels Hidden Markov Modellen (HMM) und statistischer n-gram Sprachmodelle. Gaußsche Mischverteilungen dienen als Emissionsverteilungen der einzelnen Zustände des HMMs. Wir erweitern den aktuellen Stand der Technik, indem wir kontinuierliche Gebärdensprache anstelle von isolierten Gebärden betrachten sowie Merkmale und Objektpositionen direkt aus Videos mittels Objektverfolgung extrahieren. Im ersten Teil dieser Arbeit entwickeln wir Best Practice Empfehlungen für die Erstellung neuer Gebärdensprachkorpora und führen den monokularen Video Korpus RWTH-PHOENIX-Weather ein, welcher im Rahmen dieser Arbeit erstellt wurde. RWTH-PHOENIX-Weather beinhaltet kontinuierliche Gebärdensprache und wurde in Glossennotation annotiert. Im zweiten Teil dieser Arbeit konzentrieren wir uns auf die automatische Verfolgung der Hände und des Gesichtes eines Sprechers in Videosequenzen. Wir erweitern ein bestehendes modellfreies Objektverfolgungssystem, welches auf dem Verfahren der dynamischen Programmierung beruht, um Verfahren des räumlichen Pruning und der Objektverfolgung mittels mehrerer Durchgänge. Beide Verfahren berücksichtigen die kinematischen Einschränkungen des menschlichen Körpers. Die experimentelle Evaluierung beider Verfahren erfolgt auf mehr als 140.000 Videobildern, die im Rahmen dieser Arbeit in Hinblick auf die Position der Hände und des Gesichtes annotiert wurden. Mehr als 50.000 dieser annotierten Bilder sind Teil des RWTH-PHOENIX-Weather Korpus. Im dritten und längsten Teil dieser Doktorarbeit konzentrieren wir uns auf AGSE. Wir präsentieren umfangreiche, experimentelle Analysen von Standardmerkmalen der Computer Vision, wie etwa scale invariant feature transformation (SIFT) und histogram of oriented gradients (HOG), im Kontext von AGSE. Weiterhin untersuchen wir Einflussfaktoren wie Fehlerfortpflanzung aus der Objektverfolgung, die Verwendung von zeitlichem Kontext, der Qualität des Bild-Zustand Alignments der HMMs und des Einflusses des statistischen Sprachmodells. Methoden zur Verbesserung der Alignmentqualität durch Gebärdenlängenmodellierung und die Modellierung von nicht Gebärden werden diskutiert. Wir zeigen, dass diese Techniken Erkennungsergebnisse für einen einzelnen Sprecher verbessern. Sich der multimodalen Grundnatur der Gebärdensprachen zuwendend, untersuchen wir Techniken zur Kombination unterschiedlicher Sprachmodalitäten während des Erkennungsprozesses. Hierbei stellen wir fest, dass synchrone und asynchrone Modalitätskombination ohne erneutes Training des Systems die Erkennungsergebnisse für einen einzelnen Sprecher und multiple Sprecher verbessert. Weiterhin untersuchen wir, welche der vorgeschlagenen Techniken von der Erkennung für einen einzelnen Sprecher zur Erkennung für multiple Sprecher generalisieren. Alle, in dieser Arbeit untersuchten, Modellierungs- und Erkennungstechniken werden auf öffentlich zugänglichen Gebärdensprachkorpora in kontinuierlicher deutscher Gebärdensprache oder dem RWTH-PHOENIX-Weather Korpus evaluiert. In allen Fällen werden gute Ergebnisse erzielt, die in einigen F ̈allen die besten veröffentlichten Ergebnisse deutlich übertreffen.
Identifikationsnummern
- DOI: 10.18154/RWTH-2020-08775
- RWTH PUBLICATIONS: RWTH-2020-08775