Window-to-Window BEV Representation Learning for Limited FoV Cross-View Geo-localization

要約

クロスビューの地理位置特定は、特に地上ビューのクエリ画像の視野が限られており方向が不明な場合に、視点の大きな変化による重大な課題に直面します。
クロスビュードメインのギャップを埋めるために、地上クエリ画像から直接BEV表現を学習することを初めて検討しました。
しかし、地上画像と航空画像の間の方向が不明であることと、カメラ パラメーターが存在しないことにより、BEV クエリと地上参照の間のあいまいさが生じました。
この課題に取り組むために、我々は、BEV クエリをウィンドウ スケールで地上基準に適応的に一致させる、W2W-BEV と呼ばれる新しいウィンドウ間 BEV 表現学習方法を提案します。
具体的には、事前定義された BEV エンベディングと抽出された地上フィーチャが固定数のウィンドウに分割され、コンテキストを認識したウィンドウ マッチング戦略に基づいて、BEV フィーチャごとに最も類似した地上ウィンドウが選択されます。
続いて、一致した BEV ウィンドウと地上ウィンドウの間でクロスアテンションが実行され、ロバストな BEV 表現が学習されます。
さらに、地表特徴と予測深度情報を使用して BEV 埋め込みを初期化し、より強力な BEV 表現の学習を支援します。
ベンチマーク データセットに関する広範な実験結果は、未知の向きと制限された FoV という困難な条件下で、以前の最先端の方法よりも当社の W2W-BEV が大幅に優れていることを示しています。
具体的には、Fov が 90 度に制限され、方向が不明な CVUSA データセットでは、W2W-BEV は R@1 精度で 47.24% から 64.73%(+17.49%) への大幅な向上を達成します。

要約(オリジナル)

Cross-view geo-localization confronts significant challenges due to large perspective changes, especially when the ground-view query image has a limited field of view with unknown orientation. To bridge the cross-view domain gap, we for the first time explore to learn a BEV representation directly from the ground query image. However, the unknown orientation between ground and aerial images combined with the absence of camera parameters led to ambiguity between BEV queries and ground references. To tackle this challenge, we propose a novel Window-to-Window BEV representation learning method, termed W2W-BEV, which adaptively matches BEV queries to ground reference at window-scale. Specifically, predefined BEV embeddings and extracted ground features are segmented into a fixed number of windows, and then most similar ground window is chosen for each BEV feature based on the context-aware window matching strategy. Subsequently, the cross-attention is performed between the matched BEV and ground windows to learn the robust BEV representation. Additionally, we use ground features along with predicted depth information to initialize the BEV embeddings, helping learn more powerful BEV representations. Extensive experimental results on benchmark datasets demonstrate significant superiority of our W2W-BEV over previous state-of-the-art methods under challenging conditions of unknown orientation and limited FoV. Specifically, on the CVUSA dataset with limited Fov of 90 degree and unknown orientation, the W2W-BEV achieve an significant improvement from 47.24% to 64.73 %(+17.49%) in R@1 accuracy.

arxiv情報

著者 Lei Cheng,Teng Wang,Lingquan Meng,Changyin Sun
発行日 2024-07-09 13:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク