Learning-based visual scene and person understanding for mobile robotics
Hermans, Alexander; Leibe, Bastian (Thesis advisor); Stachniss, Cyrill (Thesis advisor)
Aachen (2020, 2021)
Doktorarbeit
Dissertation, RWTH Aachen University, 2020
Kurzfassung
Wir haben in den letzten Jahrzehnten enorme Fortschritte in der Computer Vision Community erlebt. Während sich frühe Ansätze oft auf Heuristiken stützten und Anwendungen von Machine Learning Methoden nur begrenzt waren, haben die Fortschritte in Deep Learning das Feld erheblich verändert. Sie haben es uns ermöglicht, über handgefertigte Zwischenfunktionen hinauszugehen und tiefe neuronale Netzwerke zu trainieren. Insbesondere in Kombination mit wachsender Rechenleistung und wachsenden Datensatzgrößen haben wir sehr beeindruckende Ergebnisse erzielt, die bei einigen Anwendungen sogar die menschlichen Fähigkeiten übertreffen. Wenn wir jedoch Computer Vision innerhalb einer Robotik-Anwendung einsetzen wollen, stellen wir oft fest, dass die leistungsfähigsten Methoden schwierig einzusetzen sind. Da die Inferenzgeschwindigkeit in der Regel kein wirkliches Problem für die Computer Vision Forschung darstellt, reichen die begrenzten Rechenressourcen auf mobilen Roboterplattformen nicht aus, um viele der Forschungsmethoden online auszuführen. Darüber hinaus erzeugen viele Sensorkonfigurationen, die auf Roboterplattformen verwendet werden, Bilder mit Eigenschaften, die sich von denen in vielen Computer Vision Datensätzen unterscheiden, was zu unerwartetem Verhalten führt. Gleichzeitig verlassen sich immer mehr Roboter, wie Serviceroboter, autonome Fahrzeuge und Landwirtschaftsroboter, auf Bildverarbeitungsfähigkeiten. In dieser Dissertation beschäftigen wir uns mit visuellen Szenen- und Personenverständnis, die für Robotikanwendungen von hoher Relevanz sind. Roboter müssen in der Lage sein, ihre Umgebung zu verstehen und sich vor allem um Personen zu kümmern, um eine sichere Navigation und Interaktion zu gewährleisten. Wir beschäftigen uns insbesondere mit drei wichtigen Teilaufgaben: semantische Segmentierung, 2D-laserbasierte Objekterkennung und Re-Identifikation von Personen. Die semantische Segmentierung befasst sich mit der Aufgabe, jedes Pixel oder jeden Punkt in einer Szene mit einem Klassenlabel zu versehen. Dies wiederum kann dazu verwendet werden, Informationen auf höherer Ebene über die umgebende Szene zu extrahieren, die als Kontext für weitere Planungs- und Interaktionsaufgaben verwendet werden können. Die sich daraus ergebenden Segmentierungen liefern zwar Objekt-Labels, enthalten jedoch keine Instanz-Labels, sodass es schwierig ist, Objektinstanzen zu erkennen. Die Objekterkennung ist jedoch eine wichtige Fähigkeit, die es Robotern ermöglicht, sicher zwischen dynamischen Objekten zu navigieren. Insbesondere die Erkennung von Personen ist eine wichtige Aufgabe, die es Robotern ermöglicht, mit uns zu interagieren. Da viele mobile Plattformen bereits mit einem 2D-Laserscanner ausgestattet sind, sind sie interessante Eingabesensoren für die Objekterkennung, auch wenn die resultierenden Scans nur spärliche Daten enthalten. Neben der Personenerkennung ist auch die Re-Identifikation von Personen eine wichtige Aufgabe. Diese kann zur Verbesserung von Tracking-Ansätzen genutzt werden, erlaubt aber auch die Erfassung längerfristiger Statistiken und ermöglicht personenspezifische Interaktionen. Während wir versuchen, den Stand der Technik für jede dieser Aufgaben zu verbessern, konzentrieren wir uns auch auf die tatsächliche Anwendbarkeit der Ansätze. Wir schlagen drei verschiedene semantische Segmentierungsmethoden vor, die verschiedene Aspekte der Aufgabe angehen. Die ersten beiden befassen sich mit der semantischen Segmentierung von 3D-Punktwolken und basieren auf traditionellen Ansätze des maschinellen Lernens. Für unsere dritte Methode schlagen wir eine neuartige neuronale Netzarchitektur vor und zeigen, dass wir diese von Grund auf trainieren können, im Gegensatz zu dem typischen Ansatz, ein Netz auf großen zusätzlichen Datensätzen vorzutrainieren. Dann stellen wir unseren auf Deep Learning basierenden Objektdetektor vor, der auf einem gelernten Votingschema basiert. Wir wenden unseren Detektor auf Gehhilfen und Personen an und zeigen, dass er bestehende Methoden übertrifft. Schließlich wenden wir uns der Re-Identifikation von Personen zu und zeigen, dass entgegen der allgemeinen Meinung ein Triplet Loss genutzt werden kann, um ein Re-Identifikationsnetz zu trainieren, welches Ergebnisse auf dem neuesten Stand der Technik erzielt. Im Rahmen von Robotik-Projekten stellen wir verschiedene praktische Anwendungen unserer Methoden vor. Wir glauben, dass wir einen Beitrag zu den jeweiligen Computer Vision Feldern leisten konnten, hoffen aber vor allem, dass wir die theoretischen Ansätze und ihre tatsächlichen Anwendungen einander näher gebracht haben.
Identifikationsnummern
- DOI: 10.18154/RWTH-2020-12472
- RWTH PUBLICATIONS: RWTH-2020-12472