Explicit Interaction for Fusion-Based Place Recognition

要約

フュージョンベースの場所認識は、ロボットや自動運転車の GPS が拒否されたシナリオで、以前に訪れた場所を認識するために、マルチモーダル知覚データを共同利用する新しい技術です。
最近の融合ベースの場所認識方法は、マルチモーダルな特徴を暗黙的な方法で組み合わせています。
彼らは顕著な結果を達成していますが、個々のモダリティが融合システムで何をもたらすかを明確に考慮していません。
したがって、マルチモーダル機能融合の利点は十分に検討されていない可能性があります。
この論文では、2 つのモダリティの明示的な相互作用を実現する、EINet と呼ばれる新しい融合ベースのネットワークを提案します。
EINet は、LiDAR 範囲を使用して、長期間にわたってより堅牢なビジョン機能を監視し、同時にカメラの RGB データを使用して、LiDAR 点群の識別を向上させます。
さらに、nuScenes データセットに基づいて、場所認識タスクの新しいベンチマークを開発します。
包括的な比較により将来の研究のためにこのベンチマークを確立するために、評価プロトコルとともに教師ありトレーニング スキームと自己教師ありトレーニング スキームの両方を導入します。
私たちは、提案されたベンチマークに関して広範な実験を実施しました。その実験結果は、EINet が最先端の融合ベースの場所認識アプローチと比較して、より優れた認識パフォーマンスと確かな汎化能力を示すことを示しています。
私たちのオープンソース コードとベンチマークは、https://github.com/BIT-XJY/EINet でリリースされています。

要約(オリジナル)

Fusion-based place recognition is an emerging technique jointly utilizing multi-modal perception data, to recognize previously visited places in GPS-denied scenarios for robots and autonomous vehicles. Recent fusion-based place recognition methods combine multi-modal features in implicit manners. While achieving remarkable results, they do not explicitly consider what the individual modality affords in the fusion system. Therefore, the benefit of multi-modal feature fusion may not be fully explored. In this paper, we propose a novel fusion-based network, dubbed EINet, to achieve explicit interaction of the two modalities. EINet uses LiDAR ranges to supervise more robust vision features for long time spans, and simultaneously uses camera RGB data to improve the discrimination of LiDAR point clouds. In addition, we develop a new benchmark for the place recognition task based on the nuScenes dataset. To establish this benchmark for future research with comprehensive comparisons, we introduce both supervised and self-supervised training schemes alongside evaluation protocols. We conduct extensive experiments on the proposed benchmark, and the experimental results show that our EINet exhibits better recognition performance as well as solid generalization ability compared to the state-of-the-art fusion-based place recognition approaches. Our open-source code and benchmark are released at: https://github.com/BIT-XJY/EINet.

arxiv情報

著者 Jingyi Xu,Junyi Ma,Qi Wu,Zijie Zhou,Yue Wang,Xieyuanli Chen,Ling Pei
発行日 2024-02-27 07:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク