要約
画像から点群へのグローバルな位置特定は、GNSS が拒否された環境でのロボットのナビゲーションにとって重要であり、マルチロボットの地図融合や都市資産管理にとってますます重要になっています。
画像と点群との間のモダリティのギャップは、クロスモダリティ融合にとって重大な課題を引き起こします。
現在のクロスモダリティのグローバル ローカライゼーション ソリューションでは、情報損失につながるモダリティの統合が必要であるか、マルチモダリティの特徴をエンコードするために設計されたトレーニング スキームに依存しているため、多くの場合、特徴の位置合わせや関係の一貫性が欠如しています。
これらの制限に対処するために、我々は、顕著性マップを特徴集約に融合し、複数多様体空間上で特徴関係の一貫性を維持する、新しい対照学習ベースのアーキテクチャである SaliencyI2PLoc を提案します。
データマイニングの前処理を軽減するために、クロスモダリティ特徴マッピングを効率的に実現する対照学習フレームワークが適用されます。
コンテキスト顕著性にガイドされたローカル特徴集約モジュールが設計されており、シーン内の定常情報の寄与を最大限に活用して、より代表的なグローバル特徴を生成します。
さらに、対比学習中のクロスモダリティ特徴の調整を強化するために、異なる多様体空間内のサンプル間の相対関係の一貫性も考慮されます。
都市および高速道路のシナリオ データセットに対して行われた実験により、私たちの手法の有効性と堅牢性が実証されました。
具体的には、私たちの手法は都市シナリオ評価データセットで 78.92% の Recall@1 と 97.59% の Recall@20 を達成し、ベースライン手法と比較して 37.35% と 18.07% の改善を示しています。
これは、私たちのアーキテクチャが画像と点群を効率的に融合し、クロスモダリティのグローバル ローカリゼーションにおいて大きな前進を示していることを示しています。
プロジェクトページとコードが公開されます。
要約(オリジナル)
Image to point cloud global localization is crucial for robot navigation in GNSS-denied environments and has become increasingly important for multi-robot map fusion and urban asset management. The modality gap between images and point clouds poses significant challenges for cross-modality fusion. Current cross-modality global localization solutions either require modality unification, which leads to information loss, or rely on engineered training schemes to encode multi-modality features, which often lack feature alignment and relation consistency. To address these limitations, we propose, SaliencyI2PLoc, a novel contrastive learning based architecture that fuses the saliency map into feature aggregation and maintains the feature relation consistency on multi-manifold spaces. To alleviate the pre-process of data mining, the contrastive learning framework is applied which efficiently achieves cross-modality feature mapping. The context saliency-guided local feature aggregation module is designed, which fully leverages the contribution of the stationary information in the scene generating a more representative global feature. Furthermore, to enhance the cross-modality feature alignment during contrastive learning, the consistency of relative relationships between samples in different manifold spaces is also taken into account. Experiments conducted on urban and highway scenario datasets demonstrate the effectiveness and robustness of our method. Specifically, our method achieves a Recall@1 of 78.92% and a Recall@20 of 97.59% on the urban scenario evaluation dataset, showing an improvement of 37.35% and 18.07%, compared to the baseline method. This demonstrates that our architecture efficiently fuses images and point clouds and represents a significant step forward in cross-modality global localization. The project page and code will be released.
arxiv情報
著者 | Yuhao Li,Jianping Li,Zhen Dong,Yuan Wang,Bisheng Yang |
発行日 | 2024-12-20 05:20:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google