A Unified Hierarchical Framework for Fine-grained Cross-view Geo-localization over Large-scale Scenarios

要約

クロスビュージオローカリゼーションは、大規模なローカリゼーションの問題に対する有望なソリューションであり、微細な予測を実現するために検索およびメトリックのローカリゼーションタスクの連続的な実行が必要です。
ただし、既存の方法は通常、これら2つのタスクのスタンドアロンモデルの設計に焦点を当てており、その結果、非効率的なコラボレーションとトレーニングオーバーヘッドの増加につながります。
このホワイトペーパーでは、検索とメトリックのローカリゼーションタスクを単一のネットワークに統合する新しい統一された階層ジオローカリゼーションフレームワークであるUnifyGeoを提案します。
具体的には、まず共有パラメーターを使用して統一された学習戦略を採用して、マルチ粒度表現を共同で学習し、これら2つのタスク間の相互強化を促進します。
その後、専用の損失関数に導かれる再ランクメカニズムを設計します。これにより、検索精度とメトリックローカリゼーション参照の両方を改善することにより、地理ローカリゼーションのパフォーマンスが向上します。
広範な実験では、UnifyGeoがタスクに関連する設定とタスク関連設定の両方で最先端のアートを大幅に上回ることが示されています。
驚くべきことに、細粒のローカリゼーション評価をサポートする挑戦的な活力ベンチマークでは、1メートルレベルのローカリゼーションリコール率は、それぞれ同次およびクロスエリアの評価でそれぞれ1.53 \%から39.64 \%、0.43 \%から25.58 \%に改善されます。
コードは公開されます。

要約(オリジナル)

Cross-view geo-localization is a promising solution for large-scale localization problems, requiring the sequential execution of retrieval and metric localization tasks to achieve fine-grained predictions. However, existing methods typically focus on designing standalone models for these two tasks, resulting in inefficient collaboration and increased training overhead. In this paper, we propose UnifyGeo, a novel unified hierarchical geo-localization framework that integrates retrieval and metric localization tasks into a single network. Specifically, we first employ a unified learning strategy with shared parameters to jointly learn multi-granularity representation, facilitating mutual reinforcement between these two tasks. Subsequently, we design a re-ranking mechanism guided by a dedicated loss function, which enhances geo-localization performance by improving both retrieval accuracy and metric localization references. Extensive experiments demonstrate that UnifyGeo significantly outperforms the state-of-the-arts in both task-isolated and task-associated settings. Remarkably, on the challenging VIGOR benchmark, which supports fine-grained localization evaluation, the 1-meter-level localization recall rate improves from 1.53\% to 39.64\% and from 0.43\% to 25.58\% under same-area and cross-area evaluations, respectively. Code will be made publicly available.

arxiv情報

著者 Zhuo Song,Ye Zhang,Kunhong Li,Longguang Wang,Yulan Guo
発行日 2025-05-12 14:44:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク