Video object segmentation and tracking
Voigtlaender, Paul; Leibe, Bastian (Thesis advisor); Leal-Taixé, Laura (Thesis advisor)
Aachen : RWTH Aachen University (2021, 2022)
Doktorarbeit
Dissertation, RWTH Aachen University, 2021
Kurzfassung
Video-Objekt-Segmentierung (VOS) ist die Computer-Vision-Aufgabe der Segmentierung von generischen Objekten in einem Video, basierend auf ihren Grundwahrheitssegmentierungsmasken, die für das erste Bild des Videos gegeben sind. Stark verwandt sind die Aufgaben des Einzel-Objekt-Trackings (SOT) und des Multi-Objekt-Trackings (MOT), wobei eine oder mehrere Objekte auf der Bounding-Box-Ebene getracked werden müssen. All diese Aufgaben sind hochgradig miteinander verwandt und haben wichtige Anwendungen wie autonomes Fahren und Videobearbeitung. Gleichzeitig bleiben all diese Aufgaben bis heute sehr herausfordernd. In dieser Arbeit schlagen wir drei verschiedene Methoden für VOS vor, die jeweils einem anderen Paradigma folgen. Die erste Methode, OnAVOS, folgt dem erscheinungsbasierten Paradigma und führt Online-Updates durch, um sich während der Verarbeitung eines Videos an Änderungen des Erscheinungsbilds anpassen zu können. Die zweite Methode, PReMVOS, folgt dem Tracking-durch-Detektion-Paradigma. PReMVOS verwendet einen mit dem ersten Bild angepassten Instanzsegmentor, um Objektmasken-Kandidaten bereitzustellen. Diese Kandidaten werden dann mithilfe von Re-Identifikation und Masken-Warping durch optischen Fluss über die Zeit zu Tracks verknüpft. Die dritte Methode, FEELVOS, folgt dem Merkmal-Einbettungs-Lernen Paradigma. FEELVOS ist eine der ersten VOS-Methoden, die eine Merkmals-Einbettung als interne Führung eines Faltungsnetzwerks benutzt und die Einbettung Ende-zu-Ende mit einer Segmentierungs-Verlustfunktion lernt. Durch diesen Ansatz erzielt FEELVOS starke Ergebnisse und ist dabei schnell und erfordert keine Anpassung des Netzwerks zur Testzeit. Dieses Merkmal-Einbettungs-Lernen Paradigma zusammen mit dem Ende-zu-Ende Lernen ist inzwischen zum dominierenden Ansatz für VOS geworden. Da Datensätze eine wichtige treibende Kraft für den Fortschritt bei VOS sind, entwickeln und validieren wir einen semiautomatischen Ansatz für die Annotation von VOS-Datensätzen basierend auf Bounding-Box-Annotationen. Wir zeigen, dass ein auf den (semi-)automatisch generierten Annotationen trainiertes hochmodernes VOS-Modell Ergebnisse erzielen kann, die einem Training auf komplett per Hand annotierten Daten sehr nahe kommen. Wir wenden dieses Annotationsverfahren an, um Masken-Annotationen für den herausfordernden Tracking Any Object (TAO) Datensatz zu erstellen und veröffentlichen den daraus resultierenden TAO-VOS-Benchmark. Wir zeigen, dass im Gegensatz zu bestehenden VOS-Benchmarks, TAO-VOS in der Lage ist, signifikante Unterschiede in der Leistungsfähigkeit der aktuellsten Methoden aufzudecken und dass die Ergebnisqualität auf TAO-VOS noch nicht saturiert ist. Wir erweitern die bekannte MOT-Aufgabe auf Multi-Objekt-Tracking und Segmentierung (MOTS), indem von Methoden gefordert wird, auch Segmentierungsmasken zu erzeugen. Wir annotieren zwei bestehende MOT-Datensätze mit Masken und veröffentlichen die daraus resultierenden KITTI MOTS- und MOTSChallenge-Benchmarks zusammen mit neuen Bewertungskriterien und einer Baseline-Methode. Zusätzlich erhöhen wir die Bekanntheit der neuen MOTS-Aufgabe, indem wir eine Workshop-Challenge veranstalten. MOTS ist ein Schritt zur Zusammenführung der Communities von VOS und MOT um den Austausch von Ideen zu fördern. Schließlich entwickeln wir Siam R-CNN, eine Siamesische Re-Detektionsarchitektur basierend auf Faster R-CNN, für die Aufgabe des langfristigen Einzel-Objekt-Trackings. Im Gegensatz zu den meisten bisherigen Langzeit-Tracking-Ansätzen führt Siam R-CNN Re-Detektion auf dem gesamten Bild statt eines lokalen Fensters durch, wodurch es nach dem Verlust des zu verfolgenden Objektes möglich ist, das Objekt wiederzufinden. Zusätzlich schlagen wir einen Tracklet-Dynamische-Programmierung-Algorithmus (TDPA) vor, der räumlichen und zeitlichen Kontext in Siam R-CNN miteinbezieht. Siam R-CNN erzielt gute Ergebnisse für SOT und VOS und ist besonders stark bei langfristigem Tracking.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 13 (Computer Vision) [123710]
Identifikationsnummern
- DOI: 10.18154/RWTH-2021-10681
- RWTH PUBLICATIONS: RWTH-2021-10681