PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector

要約

3D物体検出は、正確な深度情報を得るためのLiDAR点群と、豊富な意味情報を得るためのカメラ画像の両方を活用する、自律走行にとって極めて重要である。したがって、両方のモダリティを組み合わせたマルチモーダル手法は、よりロバストな検出結果を提供します。しかしながら、LiDAR点と画像を効率的に融合させることは、領域ギャップのために依然として困難です。さらに、多くのモデルの性能は、作成にコストがかかる高品質のラベル付きデータの量によって制限される。異なるモダリティに対する大規模な事前学習を使用する基礎モデルの最近の進歩により、より優れたマルチモーダル融合が可能になりました。効率的なトレーニングのためのプロンプトエンジニアリング技術を組み合わせることで、LiDARとカメラの特徴量融合を強化するために、基礎モデルエンコーダとソフトプロンプトを統合したプロンプト基礎3D検出器(PF3Det)を提案する。PF3Detは、nuScenesデータセットにおいて、NDSを1.19%、mAPを2.42%向上させ、限られた学習データで最先端の結果を達成し、3D検出における効率性を実証した。

要約(オリジナル)

3D object detection is crucial for autonomous driving, leveraging both LiDAR point clouds for precise depth information and camera images for rich semantic information. Therefore, the multi-modal methods that combine both modalities offer more robust detection results. However, efficiently fusing LiDAR points and images remains challenging due to the domain gaps. In addition, the performance of many models is limited by the amount of high quality labeled data, which is expensive to create. The recent advances in foundation models, which use large-scale pre-training on different modalities, enable better multi-modal fusion. Combining the prompt engineering techniques for efficient training, we propose the Prompted Foundational 3D Detector (PF3Det), which integrates foundation model encoders and soft prompts to enhance LiDAR-camera feature fusion. PF3Det achieves the state-of-the-art results under limited training data, improving NDS by 1.19% and mAP by 2.42% on the nuScenes dataset, demonstrating its efficiency in 3D detection.

arxiv情報

著者 Kaidong Li,Tianxiao Zhang,Kuan-Chuan Peng,Guanghui Wang
発行日 2025-04-04 16:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク