要約
OpenStreetMap (OSM) は、ボランティアによる地理情報 (VGI) のオンラインで多用途なソースであり、近くの視覚的観測とベクトル化された地図データを照合することにより、人間の自己位置特定に広く使用されています。
しかし、モダリティとビューの相違により、ロボットにとって画像と OSM (I2O) のマッチングと位置特定は依然として困難であり、無人地上車両や物流業界での VGI データの完全な活用が妨げられています。
人間の脳が空間位置特定タスクのために感覚情報の幾何学的および意味論的な理解を依存しているという事実に触発されて、我々はこの論文で OSMLoc を提案します。
OSMLoc は、精度、堅牢性、汎化能力を向上させるためのセマンティックおよび幾何学的ガイダンスを備えた、脳からインスピレーションを得た単一画像の視覚的位置特定手法です。
まず、強力な画像特徴を抽出するための視覚的な基礎モデルを OSMLoc に装備します。
第 2 に、単眼の奥行き推定とカメラから BEV への変換を橋渡しするために、ジオメトリに基づく奥行き分布アダプターが提案されます。
第三に、OSM データからのセマンティック埋め込みは、画像と OSM の特徴マッチングのための補助的なガイダンスとして利用されます。
提案された OSMLoc を検証するために、広範な評価のために世界規模のクロスエリアおよびクロスコンディション (CC) ベンチマークを収集します。
MGL データセット、CC 検証ベンチマーク、および KITTI データセットでの実験により、私たちの方法の優位性が実証されました。
コード、事前トレーニングされたモデル、CC 検証ベンチマーク、および追加の結果は、https://github.com/WHU-USI3DV/OSMLoc から入手できます。
要約(オリジナル)
OpenStreetMap (OSM), an online and versatile source of volunteered geographic information (VGI), is widely used for human self-localization by matching nearby visual observations with vectorized map data. However, due to the divergence in modalities and views, image-to-OSM (I2O) matching and localization remain challenging for robots, preventing the full utilization of VGI data in the unmanned ground vehicles and logistic industry. Inspired by the fact that the human brain relies on geometric and semantic understanding of sensory information for spatial localization tasks, we propose the OSMLoc in this paper. OSMLoc is a brain-inspired single-image visual localization method with semantic and geometric guidance to improve accuracy, robustness, and generalization ability. First, we equip the OSMLoc with the visual foundational model to extract powerful image features. Second, a geometry-guided depth distribution adapter is proposed to bridge the monocular depth estimation and camera-to-BEV transform. Thirdly, the semantic embeddings from the OSM data are utilized as auxiliary guidance for image-to-OSM feature matching. To validate the proposed OSMLoc, we collect a worldwide cross-area and cross-condition (CC) benchmark for extensive evaluation. Experiments on the MGL dataset, CC validation benchmark, and KITTI dataset have demonstrated the superiority of our method. Code, pre-trained models, CC validation benchmark, and additional results are available on: https://github.com/WHU-USI3DV/OSMLoc
arxiv情報
著者 | Youqi Liao,Xieyuanli Chen,Shuhao Kang,Jianping Li,Zhen Dong,Hongchao Fan,Bisheng Yang |
発行日 | 2024-11-13 14:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google