要約
私たちは、地図上の地上ビューのクエリ画像の位置を特定することを目的とした、画像ベースの地理位置特定問題を研究します。
従来の方法では、クロスビュー位置特定技術を利用して地上ビューのクエリ画像と 2D マップを照合することがよくありました。
ただし、これらの方法のパフォーマンスは、ビュー間の外観に大きな違いがあるため、満足のいくものではないことがよくあります。
この論文では、クロスビュー マッチングを 2.5D 空間に拡張します。そこでは、樹木、建物、その他のオブジェクトなどの構造物の高さが、クロスビュー マッチングをガイドするための追加情報を提供できます。
マルチモデル データから代表的なエンベディングを学習するための新しいアプローチを紹介します。
具体的には、まず極変換を使用して 2D マップを地上ビュー パノラマ画像に位置合わせして、パノラマ画像とマップの間のギャップを減らします。
次に、グローバル フュージョンを活用して 2D および 2.5D マップのマルチモーダル機能を融合し、位置埋め込みの独自性を高めます。
私たちは、手法を検証し、研究を促進するために、最初の大規模な地上から 2.5D 地図の地理位置情報データセットを構築しました。
学習したエンベディングを 2 つの一般的なローカリゼーション アプローチ、つまり単一画像ベースのローカリゼーションとルート ベースのローカリゼーションでテストします。
広範な実験により、私たちが提案した方法は、以前の 2D マップベースのアプローチよりも大幅に高い位置特定精度と高速な収束を達成できることが実証されました。
要約(オリジナル)
We study the image-based geolocalization problem that aims to locate ground-view query images on cartographic maps. Previous methods often utilize cross-view localization techniques to match ground-view query images with 2D maps. However, the performance of these methods is frequently unsatisfactory due to the significant cross-view appearance differences. In this paper, we extend cross-view matching to 2.5D spaces, where the heights of the structures – such as trees, buildings, and other objects – can provide additional information to guide the cross-view matching. We present a new approach to learning representative embeddings from multi-model data. Specifically, we first align 2D maps to ground-view panoramic images with polar transform to reduce the gap between panoramic images and maps. Then we leverage global fusion to fuse the multi-modal features from 2D and 2.5D maps to increase the distinctiveness of location embeddings. We construct the first large-scale ground-to-2.5D map geolocalization dataset to validate our method and facilitate the research. We test our learned embeddings on two popular localization approaches, i.e., single-image based localization, and route based localization. Extensive experiments demonstrate that our proposed method achieves significantly higher localization accuracy and faster convergence than previous 2D map-based approaches.
arxiv情報
著者 | Mengjie Zhou,Liu Liu,Yiran Zhong |
発行日 | 2023-08-11 08:00:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google