Deep visual human sensing with application in robotics
Beyer, Lucas Klaus; Leibe, Bastian (Thesis advisor); Triebel, Rudolph (Thesis advisor)
Aachen : RWTH Aachen University (2021, 2022)
Doktorarbeit
Dissertation, RWTH Aachen University, 2021
Kurzfassung
Dank den Fortschritten in Robotik, Navigation, Lokalisierung und maschineller Wahrnehmung in den letzten Jahrzehnten, werden mobile Roboter (wie z.B. selbstfahrende Autos) immer häufiger unter Menschen eingesetzt. Für solche Roboter ist es kritisch, die Menschen um sich herum zu verstehen. Diese Dissertation besteht aus einer Sammlung an Arbeiten, die den aktuellen Stand der Forschung in Sachen visueller Wahrnehmung von Menschen deutlich vorantreibt. Wir fangen mit der Einführung einer grundsätzlich neuen Methode zur Detektion von Menschen in 2D LiDAR Scannern an. Unsere Methode, die wir DROW nennen, basiert auf einen voting Mechanismus, in dem jeder invidiuelle Messpunkt für eine Detektionshypothese wählt. DROW ist vollständig Datengetrieben, unterstützt auf natürliche Weise diverse Objekttypen, und schneidet deutlich besser als existierende 2D LiDAR Detektionsmethoden ab. Die Blickrichtung der Menschen ist ein subtiler, dennoch wichtiger Hinweis auf die Aufmerksamkeit und mögliche Bewegungsplanung. Deshalb haben wir ein neues Modul für Neuronale Netze entwickelt, das Biternion, welches es zusammen mit der neuen von-Mises Kostenfunktion ermöglicht, stufenlose Richtungsvorhersagen zu produzieren, sogar wenn diese mit ausschließlich diskreten Daten trainiert werden. Wir haben Biternions und die von-Mises Kostenfunktion zusätzlich darauf erweitert, einen Konfidenzwert zu jeder vorhersage zu geben. Als nächstes haben wir uns semantische Einbettungen von Bildern vorgenommen, mit besonderem Fokus auf Wiedererkennung von Personen und Objekten. Wir demonstrieren, dass der sogenannte "Triplet-loss" viel besser funktioniert, als bis dato angenommen wurde. Insbesondere schneidet unser vorgeschlagenes TriNet Modell (bestehend aus einem auf ImageNet vortrainierten ResNet50, der von uns eingeführten batch-hard version des Triplet losses, und einer soft margin) in standard Vergleichstests der Wiedererkennung von Menschen, Autos, Vögeln, und Produkten deutlich besser als bestehende Methoden ab. Alle unsere Fortschritte basieren auf tiefe Neuronale Netze, welche typischerweise Hardwarebeschleunigung benötigen, um Echtzeitfähig auf Robotern zu sein. Mehrere solche Komponenten gleichzeitig auf einem Roboter laufen zu lassen kostet viel Energie. Um diese Kosten zu minimieren, schlagen wir die DetTA pipeline vor, in welcher wir einen Tracker verwenden, um somit die Analysemodule nur gestaffelt ausführen, und während der Leerlaufzeit Track-basierende Filtervorhersagen verwenden. Zuletzt präsentieren wir eine grundsätzlich neue Art, Trackingalgorithmen zu entwerfen, in der von einem starken Personen Wiedererkennungsmodell ausgegangen wird. Diese Formulierung umgeht vollständig den problematischen Daten-Assoziationsschritt, bringt uns einen Schritt weiter in Richtung end-to-end learning für Tracking, und wirft viele neue, spannende Forschungsmöglichkeiten auf.
Identifikationsnummern
- DOI: 10.18154/RWTH-2022-09640
- RWTH PUBLICATIONS: RWTH-2022-09640