Simple, Effective and General: A New Backbone for Cross-view Image Geo-localization

要約

本研究では、クロスビュージオローカライズタスクのためのシンプルかつ効果的なバックボーンという、重要でありながらあまり検討されていない問題に取り組むことを目的としている。既存のクロスビュージオローカライズの手法は、1) 複雑な手法、2) GPUを使用した計算、3) 空中画像と地上画像の中心または方向が一致しているという厳しい仮定、といった特徴を持つことが多い。本論文では、画像照合における上記3つの課題を解決するために、Simple Attention-based Image Geo-localization network (SAIG) と呼ばれる新たなバックボーンネットワークを提案します。提案するSAIGは、パッチ間の長距離相互作用と、マルチヘッド自己注視層によるクロスビュー対応を効果的に表現する。また、浅く効果的な畳み込みステムは局所性を保持し、パッチ境界情報の損失を排除する。私たちのSAIGは、クロスビュージオローカライゼーションにおいて最先端の結果を達成し、かつ、従来の研究よりもはるかにシンプルなものとなっています。さらに、モデルパラメータは15.9%、出力次元は半分で済み、設計された特徴集約モジュールや特徴整列アルゴリズムを用いることなく、複数のクロスビューデータセットにうまく適応することが可能である。さらに、我々のSAIGは画像検索ベンチマークにおいて競争力のあるスコアを獲得し、その一般性をさらに実証した。また、SAIGは、バックボーンネットワークとして、簡単で、計算量も少なく、実用的である。さらに、空間情報を混合して低次元空間に投影し、特徴記述子を生成するシンプルな空間混合特徴集約モジュール(SMD)を提案する… (The code is available at https://github.com/yanghongji2007/SAIG)

要約(オリジナル)

In this work, we aim at an important but less explored problem of a simple yet effective backbone specific for cross-view geo-localization task. Existing methods for cross-view geo-localization tasks are frequently characterized by 1) complicated methodologies, 2) GPU-consuming computations, and 3) a stringent assumption that aerial and ground images are centrally or orientation aligned. To address the above three challenges for cross-view image matching, we propose a new backbone network, named Simple Attention-based Image Geo-localization network (SAIG). The proposed SAIG effectively represents long-range interactions among patches as well as cross-view correspondence with multi-head self-attention layers. The ‘narrow-deep’ architecture of our SAIG improves the feature richness without degradation in performance, while its shallow and effective convolutional stem preserves the locality, eliminating the loss of patchify boundary information. Our SAIG achieves state-of-the-art results on cross-view geo-localization, while being far simpler than previous works. Furthermore, with only 15.9% of the model parameters and half of the output dimension compared to the state-of-the-art, the SAIG adapts well across multiple cross-view datasets without employing any well-designed feature aggregation modules or feature alignment algorithms. In addition, our SAIG attains competitive scores on image retrieval benchmarks, further demonstrating its generalizability. As a backbone network, our SAIG is both easy to follow and computationally lightweight, which is meaningful in practical scenario. Moreover, we propose a simple Spatial-Mixed feature aggregation moDule (SMD) that can mix and project spatial information into a low-dimensional space to generate feature descriptors… (The code is available at https://github.com/yanghongji2007/SAIG)

arxiv情報

著者 Yingying Zhu,Hongji Yang,Yuxin Lu,Qiang Huang
発行日 2023-02-03 06:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク