Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception

要約

3次元物体検出と占有予測は、自律走行における重要なタスクであり、大きな注目を集めている。近年のビジョンベースの手法は、その可能性にもかかわらず、悪条件下での課題に遭遇している。そのため、カメラと次世代4Dイメージングレーダーを統合し、統一的なマルチタスク知覚を実現することは非常に重要であるが、この領域での研究はまだ限られている。本論文では、マルチビューカメラと4Dレーダーを融合し、3D物体検出と意味的占有予測を同時に行うことで、包括的な環境認識を可能にする初めてのフレームワークであるDoracamomを提案する。具体的には、ボクセルクエリを初期化するために、4Dレーダーからの幾何学的プライアと画像からの意味的特徴を統合する新しい粗いボクセルクエリ生成器を導入し、その後のTransformerベースの改良のための強固な基盤を確立する。時間情報を活用するために、BEV空間とボクセル空間にわたってマルチモーダルな時間特徴を並列処理するデュアルブランチ時間エンコーダを設計し、包括的な時空間表現学習を可能にする。さらに、特徴品質を向上させるための補助的なタスクを採用しながら、注意メカニズムを介して適応的に補完的な特徴を融合するクロスモーダルBEV-ボクセル融合モジュールを提案する。OmniHD-Scenes、View-of-Delft (VoD)、TJ4DRadSetデータセットでの広範な実験により、Doracamomが両方のタスクで最先端の性能を達成し、マルチモーダル3D知覚の新しいベンチマークを確立することを実証する。コードとモデルは一般公開されます。

要約(オリジナル)

3D object detection and occupancy prediction are critical tasks in autonomous driving, attracting significant attention. Despite the potential of recent vision-based methods, they encounter challenges under adverse conditions. Thus, integrating cameras with next-generation 4D imaging radar to achieve unified multi-task perception is highly significant, though research in this domain remains limited. In this paper, we propose Doracamom, the first framework that fuses multi-view cameras and 4D radar for joint 3D object detection and semantic occupancy prediction, enabling comprehensive environmental perception. Specifically, we introduce a novel Coarse Voxel Queries Generator that integrates geometric priors from 4D radar with semantic features from images to initialize voxel queries, establishing a robust foundation for subsequent Transformer-based refinement. To leverage temporal information, we design a Dual-Branch Temporal Encoder that processes multi-modal temporal features in parallel across BEV and voxel spaces, enabling comprehensive spatio-temporal representation learning. Furthermore, we propose a Cross-Modal BEV-Voxel Fusion module that adaptively fuses complementary features through attention mechanisms while employing auxiliary tasks to enhance feature quality. Extensive experiments on the OmniHD-Scenes, View-of-Delft (VoD), and TJ4DRadSet datasets demonstrate that Doracamom achieves state-of-the-art performance in both tasks, establishing new benchmarks for multi-modal 3D perception. Code and models will be publicly available.

arxiv情報

著者 Lianqing Zheng,Jianan Liu,Runwei Guan,Long Yang,Shouyi Lu,Yuanzhe Li,Xiaokai Bai,Jie Bai,Zhixiong Ma,Hui-Liang Shen,Xichan Zhu
発行日 2025-03-03 07:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク