3D scene understanding on point clouds

  • 3D Szenenverständnis auf Punktwolken

Engelmann, Francis; Leibe, Bastian (Thesis advisor); Tang, Siyu (Thesis advisor)

Aachen : RWTH Aachen University (2021)
Doktorarbeit

Dissertation, RWTH Aachen University, 2021

Kurzfassung

Diese Arbeit leistet einen Beitrag zum aufstrebenden Gebiet des Verständnisses von 3D Szenen. Ausgehend von einer 3D Szenendarstellung, adressieren wir Themen wie 3D Objekterkennung, Formrekonstruktion und Posen Schätzung, sowie 3D Semantische- und Instanz-Segmentierung. Die jüngste Verfügbarkeit von preiswerten Tiefensensoren hat 3D-Daten weithin zugänglich gemacht. Gleichzeitig erfordern aktuelle Bestrebungen in den Bereichen Robotik, Augmented-Reality und selbstfahrende Autos effiziente und zuverlässige Algorithmen zum Verständnis verschiedener 3D-Szenendarstellungen, wie Polygonnetze, Punktwolken oder anderen volumetrische Darstellungen. Während 3D-Daten inhärente Einschränkungen von projizierten 2D-Ansichten überwinden, wie z.B. Verdeckungen, Skalenambiguität und fehlende Geometrie, führen sie auch zu neue Herausforderungen, einschließlich nicht dichte und ungleichmäßige Abtastung. Daher lassen sich bestehende Methoden für die 2D Bildverarbeitung nicht gut auf 3D-Datenstrukturen verallgemeinern. In dieser Arbeit stellen wir neuartige Ansätze vor, die speziell auf das Verstehen von 3D Szenen ausgerichtet sind. Die Hauptbeiträge sind in drei Teile gegliedert: Der Kernbeitrag des ersten Teils ist eine probabilistische Formulierung, welche die a-priori-Wahrscheinlichkeitsverteilungen von 3D Formen und Bewegungen sowie Stereotiefenmessungen in ein globales Optimierungsproblem integriert. Der resultierende Ansatz kann gemeinsam die 3D Form, Pose und Bewegung mehrerer Fahrzeuge in städtischen Straßenszenen schätzen. Der zweite Teil beschäftigt sich mit neuen Deep-Learning-Modellen für die Verarbeitung von 3D-Punktwolken. Insbesondere schlagen wir sequentielle und rekurrente Konsolidierungseinheiten vor, um den räumlichen Kontext von Punktnetzen zu erhöhen, und einen einfachen, aber effizienten Dilatationsmechanismus zur Vergrößerung des rezeptiven Feldes von tiefen Punktfaltungsnetzen. Im dritten Teil schließlich stellen wir fortgeschrittene Deep-Learning-Modelle vor. Für die semantische Segmentierung stellen wir die Kombination von zwei Arten von Faltungen vor, die gemeinsam auf Punktwolken und Netzoberflächen arbeiten. Für die Instanzsegmentierung schlagen wir ein neues Paradigma vor, das Bottom-Up und Top-Down Ansätze kombiniert, die in früheren Arbeiten eingeführt wurden. Diese Arbeit schließt ab mit einer Diskussion zu den vorgestellten Themen und vielversprechenden Richtungen für zukünftige Forschung.

Einrichtungen

  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Informatik 13 (Computer Vision) [123710]

Identifikationsnummern

Downloads