Image-based Geolocalization by Ground-to-2.5D Map Matching

要約

本研究では、地図上のクエリ画像のローカライズを目的とした、画像ベースのジオロカリゼーション問題を研究する。現在の手法では、多くの場合、クロスビュー・ローカライゼーション技術を利用して、2次元地図とグランドビュー・クエリ画像のマッチングを行っている。しかし、これらの手法の性能は、クロスビューでの外観の違いが大きいため、満足できるものではない。本論文では、クロスビューマッチングを2.5次元空間に引き上げ、構造物(例えば、樹木や建物)の高さが、クロスビューマッチングをガイドする幾何学的情報を提供する。マルチモーダルデータから代表埋め込みを学習する新しいアプローチを提案する。具体的には、2.5次元空間と2次元航空写真空間との間の射影関係を確立する。さらに、この射影を用いて、2.5次元マップと2次元マップのマルチモーダル特徴を、効果的なピクセル間融合法を用いて結合する。重要な幾何学的手がかりを符号化することで、本手法はパノラマ画像と地図のマッチングのための識別可能な位置埋め込みを学習する。さらに、我々の手法を検証し、将来の研究を促進するために、初の大規模な地上から2.5D地図へのジオロカリゼーションデータセットを構築する。本手法を検証するために、単一画像ベースと経路ベースの両方のローカリゼーション実験を行った。広範な実験により、提案手法は、従来の2次元地図ベースのアプローチよりも大幅に高いローカライズ精度と高速な収束を達成することが実証された。

要約(オリジナル)

We study the image-based geolocalization problem, aiming to localize ground-view query images on cartographic maps. Current methods often utilize cross-view localization techniques to match ground-view query images with 2D maps. However, the performance of these methods is unsatisfactory due to significant cross-view appearance differences. In this paper, we lift cross-view matching to a 2.5D space, where heights of structures (e.g., trees and buildings) provide geometric information to guide the cross-view matching. We propose a new approach to learning representative embeddings from multi-modal data. Specifically, we establish a projection relationship between 2.5D space and 2D aerial-view space. The projection is further used to combine multi-modal features from the 2.5D and 2D maps using an effective pixel-to-point fusion method. By encoding crucial geometric cues, our method learns discriminative location embeddings for matching panoramic images and maps. Additionally, we construct the first large-scale ground-to-2.5D map geolocalization dataset to validate our method and facilitate future research. Both single-image based and route based localization experiments are conducted to test our method. Extensive experiments demonstrate that the proposed method achieves significantly higher localization accuracy and faster convergence than previous 2D map-based approaches.

arxiv情報

著者 Mengjie Zhou,Liu Liu,Yiran Zhong,Andrew Calway
発行日 2023-11-03 14:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク