Geo-Ortung von Fotos mit Deep Learning

Computer-Vision-Beratungsaufgaben beinhalten häufig Klassifizierungsprobleme, bei denen versucht wird, ein Deep-Learning-neuronales Netz zu trainieren, um ein bestimmtes Bild in eine der diskreten Klassen zu klassifizieren.

Typische Beispiele sind beispielsweise das Klassifizieren von Bildern von Tieren, Lebensmitteln usw.

Ein klassisches Problem aus diesem Satz bestand darin, Bilder entweder als Katze oder als Hund zu klassifizieren, siehe z. https://www.kaggle.com/c/dogs-vs-cats

Übertragen Sie das Lernen

In solchen Fällen nutzt man oft die Vorteile des Transferlernens. Dies bedeutet, dass die Entwicklungszeit zum Trainieren des NN für ein bestimmtes CV-Problem erheblich verkürzt wird, indem mit dem vorab trainierten neuronalen Netz begonnen wird, das für ein anderes Computer-Vision-Problem trainiert wurde.

Es ist üblich, vorgefertigte Modelle aus bekannten und erforschten Problemen zu verwenden. Beispiele für vorab trainierte Computer-Vision-Modelle sind VGG- oder Inception-Modelle.

Geo-Standort von Fotos

Vor kurzem stieß ich im Rahmen der Beratung im Bereich Computer Vision auf ein ziemlich einzigartiges Problem im Bereich Computer Vision, das eine sehr interessante Klassifizierung von Bildern umfasst, wobei das Ergebnis eine Reihe von Standortkoordinaten, Breiten- und Längengraden ist.

Mit anderen Worten, bei einem gegebenen Bild versucht das Deep-Learning-Netz, den physischen Ort zu bestimmen, an dem das Bild aufgenommen wurde, und gibt ein Zahlenpaar für Breite und Länge an.

Es gibt verschiedene Forscher, die sich dieser Herausforderung gestellt haben. Vor einigen Jahren waren Forscher mit Google einige der ersten mit ihrer PlaNet-Lösung:

https://arxiv.org/abs/1602.05314

Auf den ersten Blick sieht das Problem sehr schwierig aus. Man kann leicht ein Bild finden, bei dem es schwierig ist, den Ort zu erkennen. Viele Bilder enthalten jedoch viele Informationen, da Wahrzeichen, typische Vegetation, Wetterbedingungen, architektonische Merkmale und Ähnliches vorhanden sind.

Der Ansatz der PlaNet-Lösung und einer weiteren Lösung, die wir in Kürze beschreiben werden, besteht darin, die Erdoberfläche in Tausende von Zellen zu unterteilen und anschließend eine große Menge von mit Geotags versehenen Bildern zur Klassifizierung zu verwenden. Ein Beispiel für einen riesigen Datensatz, der eine große Anzahl von Bildern mit Geotags enthält, ist z. Flickr.

Ein weiterer interessanter Ansatz ist der des Teams des Leibniz-Informationszentrums für Wissenschaft und Technologie (TIB) in Hannover und des 2 L3S-Forschungszentrums der Leibniz Universität Hannover in Deutschland.

Ihr Ansatz ähnelt dem von PlaNet – sie teilen die ganze Erde in Zellen auf, haben aber auch eine spezielle Entscheidungsebene, die den Szeneninhalt berücksichtigt – sei es in Innenräumen, in natürlichen Umgebungen oder in städtischen Umgebungen.

Ich habe die Bibliothek https://github.com/TIBHannover/GeoEstimation implementiert und kann bestätigen, dass sie mit überraschend guten Ergebnissen funktioniert.

Das Team hat auch eine Online-Version seines Modells herausgebracht, die Sie hier einsehen können:

https://tibhannover.github.io/GeoEstimation/

Wenn ich dieses Bild an das Photo Geo Location Tool sende:

 

Das Deep-Learning-Tool platziert das Bild korrekt im Mittelmeerraum (der richtige Ort ist Ibiza, Spanien).