CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement

要約

視覚的な地理位置特定は、未知の場所で撮影された 1 つまたは複数のクエリ画像を一連の地理タグ付き参照画像と照合する、費用対効果が高く、スケーラブルなタスクです。
意味論的な特徴表現に特化した既存の手法は、照明や視点の変更、スケールや季節の変動など、クエリと参照の間の幅広い多様性に対する堅牢性を目指して進化しています。
ただし、実際の視覚的地理位置推定アプローチは、正確な地球上の位置推定を提供しながら、外観の変化や極端な視点変動条件に対して堅牢である必要があります。
したがって、カリキュラム設計に触発されて、人間はまず一般知識を学び、次に専門知識を掘り下げます。
まず意味的なシーンを認識し、次に幾何学的構造を測定します。
CurriculumLoc と呼ばれる私たちのアプローチには、多段階リファインメント パイプラインの繊細な設計と、グローバルなセマンティック認識とローカルな幾何学的検証による新しいキーポイントの検出と記述が含まれます。
候補を再ランク付けし、これらのキーポイントと対応する記述子に基づいて特定のクロスドメイン パースペクティブ n ポイント (PnP) 問題を解決すると、位置の絞り込みが段階的に行われます。
私たちが収集したデータセット TerraTrack とベンチマーク データセット ALTO に関する広範な実験結果は、私たちのアプローチが実用的な視覚的地理位置特定ソリューションの前述の望ましい特性をもたらすことを示しています。
さらに、2 つの異なる距離メトリックを使用して、ALTO でそれぞれ 62.6% と 94.5% という新たな高い再現率 @1 スコアを達成しました。
データセット、コード、トレーニング済みモデルは https://github.com/npupilab/CurriculumLoc で公開されています。

要約(オリジナル)

Visual geolocalization is a cost-effective and scalable task that involves matching one or more query images, taken at some unknown location, to a set of geo-tagged reference images. Existing methods, devoted to semantic features representation, evolving towards robustness to a wide variety between query and reference, including illumination and viewpoint changes, as well as scale and seasonal variations. However, practical visual geolocalization approaches need to be robust in appearance changing and extreme viewpoint variation conditions, while providing accurate global location estimates. Therefore, inspired by curriculum design, human learn general knowledge first and then delve into professional expertise. We first recognize semantic scene and then measure geometric structure. Our approach, termed CurriculumLoc, involves a delicate design of multi-stage refinement pipeline and a novel keypoint detection and description with global semantic awareness and local geometric verification. We rerank candidates and solve a particular cross-domain perspective-n-point (PnP) problem based on these keypoints and corresponding descriptors, position refinement occurs incrementally. The extensive experimental results on our collected dataset, TerraTrack and a benchmark dataset, ALTO, demonstrate that our approach results in the aforementioned desirable characteristics of a practical visual geolocalization solution. Additionally, we achieve new high recall@1 scores of 62.6% and 94.5% on ALTO, with two different distances metrics, respectively. Dataset, code and trained models are publicly available on https://github.com/npupilab/CurriculumLoc.

arxiv情報

著者 Boni Hu,Lin Chen,Runjian Chen,Shuhui Bu,Pengcheng Han,Haowei Li
発行日 2023-11-20 08:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク