See Beyond Seeing: Robust 3D Object Detection from Point Clouds via Cross-Modal Hallucination

要約

この論文では、クロスモーダル幻覚を介して点群から堅牢な 3D オブジェクトを検出するための新しいフレームワークを紹介します。
私たちが提案するアプローチは、LiDAR と 4D レーダーの間のどちらの幻覚方向にも依存しません。
空間レベルと特徴レベルの両方で複数のアライメントを導入し、バックボーンの洗練と幻覚の生成を同時に実現します。
具体的には、LiDAR とレーダー間のインスタンスのマッチングを改善するために、ジオメトリの不一致に対処する空間アライメントが提案されています。
特徴調整ステップは、センシングモダリティ間の固有の属性のギャップをさらに橋渡しし、トレーニングを安定させます。
トレーニングされた物体検出モデルは、推論段階で入力として単一モーダル データのみが使用される場合でも、困難な検出ケースをより適切に処理できます。
View-of-Delft (VoD) データセットに関する広範な実験により、私たちが提案した方法が、ランタイムで競争力のある効率を維持しながら、レーダーと LiDAR の両方の物体検出において最先端 (SOTA) 方法よりも優れていることが示されました。

要約(オリジナル)

This paper presents a novel framework for robust 3D object detection from point clouds via cross-modal hallucination. Our proposed approach is agnostic to either hallucination direction between LiDAR and 4D radar. We introduce multiple alignments on both spatial and feature levels to achieve simultaneous backbone refinement and hallucination generation. Specifically, spatial alignment is proposed to deal with the geometry discrepancy for better instance matching between LiDAR and radar. The feature alignment step further bridges the intrinsic attribute gap between the sensing modalities and stabilizes the training. The trained object detection models can deal with difficult detection cases better, even though only single-modal data is used as the input during the inference stage. Extensive experiments on the View-of-Delft (VoD) dataset show that our proposed method outperforms the state-of-the-art (SOTA) methods for both radar and LiDAR object detection while maintaining competitive efficiency in runtime.

arxiv情報

著者 Jianning Deng,Gabriel Chan,Hantao Zhong,Chris Xiaoxuan Lu
発行日 2023-09-29 15:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク