Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

要約

グローバル視覚地理位置情報は、画像が地球上のどこで撮影されたかを予測します。
画像の位置をどの程度正確に特定できるかは画像によって異なるため、このタスクには本質的にかなりのあいまいさが含まれます。
しかし、既存のアプローチは決定論的であり、この側面を見落としています。
このペーパーでは、従来の地理位置特定と最新の生成手法の間のギャップを埋めることを目的としています。
私たちは、拡散とリーマン流マッチングに基づいた最初の生成地理位置情報アプローチを提案します。このアプローチでは、ノイズ除去プロセスが地表で直接実行されます。
私たちのモデルは、OpenStreetView-5M、YFCC-100M、iNat21 の 3 つの視覚的地理位置情報ベンチマークで最先端のパフォーマンスを達成しています。
さらに、確率的視覚地理位置情報タスクを導入します。このタスクでは、モデルは単一点ではなく、考えられるすべての場所にわたる確率分布を予測します。
このタスクに新しい指標とベースラインを導入し、拡散ベースのアプローチの利点を実証します。
コードとモデルが利用可能になります。

要約(オリジナル)

Global visual geolocation predicts where an image was captured on Earth. Since images vary in how precisely they can be localized, this task inherently involves a significant degree of ambiguity. However, existing approaches are deterministic and overlook this aspect. In this paper, we aim to close the gap between traditional geolocalization and modern generative methods. We propose the first generative geolocation approach based on diffusion and Riemannian flow matching, where the denoising process operates directly on the Earth’s surface. Our model achieves state-of-the-art performance on three visual geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition, we introduce the task of probabilistic visual geolocation, where the model predicts a probability distribution over all possible locations instead of a single point. We introduce new metrics and baselines for this task, demonstrating the advantages of our diffusion-based approach. Codes and models will be made available.

arxiv情報

著者 Nicolas Dufour,David Picard,Vicky Kalogeiton,Loic Landrieu
発行日 2024-12-09 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク