BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities

要約

共同知覚により、エージェントは近くのエージェントと補完的な知覚情報を共有できます。
これにより、知覚パフォーマンスが向上し、オクルージョンやスパース性などの単一ビューの知覚の問題が軽減されます。
既存のアプローチのほとんどは、主に単一モダリティ (特に LiDAR) に焦点を当てており、マルチモーダル知覚の優位性を十分に活用していません。
我々は、LiDAR とカメラを使用して効率的なマルチモーダル知覚を実現する協調知覚パラダイム BM2CP を提案します。
これは、LiDAR 誘導モーダル融合、協調深度生成、およびモダリティ誘導中間融合を利用して、異なるエージェントのモダリティ間の深い相互作用を取得します。さらに、同じタイプまたは異なるタイプのセンサーの 1 つが、
エージェントが不足しています。
広範な実験により、シミュレートされた自動運転シナリオと現実世界の自動運転シナリオの両方で、当社のアプローチが通信量を 50 分の 1 に抑え、最先端の方法よりも優れたパフォーマンスを発揮することが検証されました。
私たちのコードは https://github.com/byzhaoAI/BM2CP で入手できます。

要約(オリジナル)

Collaborative perception enables agents to share complementary perceptual information with nearby agents. This would improve the perception performance and alleviate the issues of single-view perception, such as occlusion and sparsity. Most existing approaches mainly focus on single modality (especially LiDAR), and not fully exploit the superiority of multi-modal perception. We propose a collaborative perception paradigm, BM2CP, which employs LiDAR and camera to achieve efficient multi-modal perception. It utilizes LiDAR-guided modal fusion, cooperative depth generation and modality-guided intermediate fusion to acquire deep interactions among modalities of different agents, Moreover, it is capable to cope with the special case where one of the sensors, same or different type, of any agent is missing. Extensive experiments validate that our approach outperforms the state-of-the-art methods with 50X lower communication volumes in both simulated and real-world autonomous driving scenarios. Our code is available at https://github.com/byzhaoAI/BM2CP.

arxiv情報

著者 Binyu Zhao,Wei Zhang,Zhaonian Zou
発行日 2023-10-23 08:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク