Alignment and localization in fine-grained image recognition
Hanselmann, Harald; Ney, Hermann (Thesis advisor); Rigoll, Gerhard (Thesis advisor)
Aachen : RWTH Aachen University (2020, 2021)
Doktorarbeit
Dissertation, RWTH Aachen University, 2020
Kurzfassung
Die Bilderkennung beschäftigt sich mit der Frage, welche Objekte in einem Bild zu sehen sind. Konkrete Klassifikationsaufgaben definieren dazu eine begrenzte Anzahl von Klassen, die zu unterscheiden sind. Allgemein kann die Bilderkennung in verschiedene Teilbereiche aufgegliedert werden, wobei sich die Unterteilung danach richtet, wie ähnlich sich die zu unterscheidenden Klassen sind. Auf der einen Seite können die Klassen sehr unterschiedlich sein, wenn zum Beispiel die Aufgabe darin besteht, zwischen allgemeinen Klassen zu unterscheiden (z.B. Auto, Tisch, Katze, etc.). Auf der anderen Seite können die Unterschiede zwischen den Klassen sehr subtil sein. Beispiele dafür sind unter anderem die Klassifikation von verschiedenen Fahrzeugmodellen, oder die Klassifikation in verschiedene Unterarten einer bestimmten Tierart. Ein besonderer Fall ist die Gesichtserkennung, denn hier muss zwischen Individuen unterschieden werden. Für Klassifikationsaufgaben mit sehr ähnlichen Klassen ist es nicht nur wichtig, Merkmale in einem Bild zu erkennen, sondern auch wo in dem Bild sie zu finden sind und wie sie räumlich voneinander abhängen. In dieser Dissertation werden verschiedene Methoden betrachtet, um Merkmale zu lokalisieren und räumlich auszurichten. Dazu betrachten wir auf der einen Seite eine genaue räumliche Ausrichtung für jedes einzelne Pixel mithilfe von 2D-Warping. Dabei werden Methoden vorgestellt, um die Berechnung des 2D-Warpings zu beschleunigen. Zusätzlich stellen wir einen neuen Algorithmus vor, der bessere Ergebnisse bezüglich des Optimierungskriteriums und der Erkennungsrate erzeugt. Auf der anderen Seite werden neue Methoden vorgestellt, bessere lokale Merkmale zu bestimmen, die wiederum auch zu einer besseren Erkennungsrate führen. Diese Merkmale werden mithilfe eines Convolutional Neural Networks (CNN) erstellt. Weiterhin stellen wir einen verformbaren Region-of-interest Pooling Layer vor, der ebenfalls auf 2D-Warping beruht. Dieser Layer kann in ein bereits trainiertes CNN eingefügt werden und ermöglicht die Erkennung von Bildern mit räumlichen Verzerrungen, die in den Trainings-Daten nicht vorkommen. Dabei stellen wir fest, dass das Ausgleichen von Skalierung und Translation den größten Einfluss auf die Erkennungsrate hat. Daher entwickeln wir ein Lokalisierungsmodul für diesen Zweck, dass ebenfalls in ein CNN eingefügt werden kann. Das Modul ist sehr effizient bezüglich Laufzeit und Speicherplatz und benötigt keine zusätzlichen Annotationen. Zusätzlich erweitern wir das CNN Modell durch globales K-Max Pooling und einen Embedding Layer, der die Bilder in einen diskriminativen Vektorraum abbildet. Ein Nachteil des angesprochenen Lokalisierungsmoduls ist, dass es in einem separaten Schritt trainiert wird. Daher wandeln wir es in ein differenzierbares Modul um, sodass es zusammen mit dem CNN end-to-end trainiert werden kann. Wir evaluieren die vorgestellten Methoden auf verschiedenen populären Benchmark-Datenbanken. Für einige dieser Datenbanken erreichen wir die beste bis zu diesem Zeitpunkt publizierte Erkennungsrate.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 6 (Maschinelles Lernen) [122010]
Identifikationsnummern
- DOI: 10.18154/RWTH-2021-01919
- RWTH PUBLICATIONS: RWTH-2021-01919