要約
各センサータイプには補完的な長所と短所があるため、自律運転における堅牢なセマンティック認識には、複数のセンサーを活用することが重要です。
ただし、既存のセンサー融合法は、多くの場合、すべての条件でセンサーを均一に処理し、最適ではないパフォーマンスにつながります。
対照的に、運転シーンの堅牢なセマンティックな知覚のために、斬新な条件付きマルチモーダル融合アプローチを提案します。
私たちの方法であるCafuserは、RGBカメラ入力を使用して環境条件を分類し、複数のセンサーモダリティの融合を導く条件トークンを生成します。
さらに、モダリティ固有の機能アダプターを新しく導入して、多様なセンサー入力を共有潜在スペースに揃え、単一および共有された事前訓練を受けたバックボーンとの効率的な統合を可能にします。
実際の条件に基づいてセンサー融合を動的に適応させることにより、このモデルは、特に不利なシナリオで堅牢性と精度を大幅に向上させます。
カフューザーは、マルチモーダルパノプティックで59.7 PQ、セマンティックセグメンテーションで78.2 MIOUを達成し、デリバリーの新しい最新の最新を設定し、パブリックミューズベンチマークで1位にランクされています。
ソースコードは、https://github.com/timbroed/cafuserで公開されています。
要約(オリジナル)
Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leading to suboptimal performance. By contrast, we propose a novel, condition-aware multimodal fusion approach for robust semantic perception of driving scenes. Our method, CAFuser, uses an RGB camera input to classify environmental conditions and generate a Condition Token that guides the fusion of multiple sensor modalities. We further newly introduce modality-specific feature adapters to align diverse sensor inputs into a shared latent space, enabling efficient integration with a single and shared pre-trained backbone. By dynamically adapting sensor fusion based on the actual condition, our model significantly improves robustness and accuracy, especially in adverse-condition scenarios. CAFuser ranks first on the public MUSES benchmarks, achieving 59.7 PQ for multimodal panoptic and 78.2 mIoU for semantic segmentation, and also sets the new state of the art on DeLiVER. The source code is publicly available at: https://github.com/timbroed/CAFuser.
arxiv情報
著者 | Tim Broedermann,Christos Sakaridis,Yuqian Fu,Luc Van Gool |
発行日 | 2025-01-27 13:45:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google