Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes

要約

各センサーの種類には補完的な長所と短所があるため、自動運転における堅牢な意味認識には複数のセンサーを活用することが重要です。
ただし、既存のセンサー フュージョン手法では、すべての条件にわたってセンサーを均一に扱うことが多く、最適なパフォーマンスが得られません。
対照的に、私たちは、運転シーンの堅牢な意味認識のための、新しい条件認識型マルチモーダル融合アプローチを提案します。
私たちの手法である CAFuser は、RGB カメラ入力を使用して環境条件を分類し、複数のセンサー モダリティの融合をガイドする条件トークンを生成します。
さらに、モダリティ固有の機能アダプターを新たに導入して、多様なセンサー入力を共有潜在空間に調整し、単一の共有事前トレーニング済みバックボーンとの効率的な統合を可能にします。
実際の条件に基づいてセンサー フュージョンを動的に適応させることで、私たちのモデルは、特に悪条件のシナリオでの堅牢性と精度を大幅に向上させます。
MUSES データセット上で CAFuser を使用して、マルチモーダル パノプティック セグメンテーションで 59.7 PQ、セマンティック セグメンテーションで 78.2 mIoU という新しい最先端技術を確立し、公開ベンチマークで 1 位にランクされました。

要約(オリジナル)

Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leading to suboptimal performance. By contrast, we propose a novel, condition-aware multimodal fusion approach for robust semantic perception of driving scenes. Our method, CAFuser uses an RGB camera input to classify environmental conditions and generate a Condition Token that guides the fusion of multiple sensor modalities. We further newly introduce modality-specific feature adapters to align diverse sensor inputs into a shared latent space, enabling efficient integration with a single and shared pre-trained backbone. By dynamically adapting sensor fusion based on the actual condition, our model significantly improves robustness and accuracy, especially in adverse-condition scenarios. We set the new state of the art with CAFuser on the MUSES dataset with 59.7 PQ for multimodal panoptic segmentation and 78.2 mIoU for semantic segmentation, ranking first on the public benchmarks.

arxiv情報

著者 Tim Broedermann,Christos Sakaridis,Yuqian Fu,Luc Van Gool
発行日 2024-10-14 17:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク