Cocoon: Robust Multi-Modal Perception with Uncertainty-Aware Sensor Fusion

要約

3D 物体検出における重要なパラダイムは、複数のモダリティを使用して、通常の状況と困難な状況の両方で、特にロングテール シナリオの精度を向上させることです。
これに対処するために、最近の研究では、適応アプローチの 2 つの方向性が検討されています。1 つは、異なるオブジェクトの構成から生じる不確実性に対処する MoE ベースの適応融合、もう 1 つは、個別の検出パイプラインに依存し、包括的な理解を制限する、出力レベルの適応融合のための遅延融合です。

この研究では、オブジェクトレベルと機能レベルの不確実性を認識した融合フレームワークである Cocoon を紹介します。
主要な革新は、異種表現の不確実性の定量化にあり、特徴アライナと特徴インプレッションと呼ばれる学習可能な代替グラウンドトゥルースの導入を通じて、モダリティ間の公平な比較を可能にします。
また、それらの関係が不確実性の定量化に有効な指標を提供することを保証するためのトレーニング目標も定義します。
Cocoon は、自然および人工的な破損を含む通常の条件と困難な条件の両方で、既存の静的および適応的な手法よりも常に優れたパフォーマンスを発揮します。
さらに、さまざまなデータセットにわたる不確実性指標の妥当性と有効性を示します。

要約(オリジナル)

An important paradigm in 3D object detection is the use of multiple modalities to enhance accuracy in both normal and challenging conditions, particularly for long-tail scenarios. To address this, recent studies have explored two directions of adaptive approaches: MoE-based adaptive fusion, which struggles with uncertainties arising from distinct object configurations, and late fusion for output-level adaptive fusion, which relies on separate detection pipelines and limits comprehensive understanding. In this work, we introduce Cocoon, an object- and feature-level uncertainty-aware fusion framework. The key innovation lies in uncertainty quantification for heterogeneous representations, enabling fair comparison across modalities through the introduction of a feature aligner and a learnable surrogate ground truth, termed feature impression. We also define a training objective to ensure that their relationship provides a valid metric for uncertainty quantification. Cocoon consistently outperforms existing static and adaptive methods in both normal and challenging conditions, including those with natural and artificial corruptions. Furthermore, we show the validity and efficacy of our uncertainty metric across diverse datasets.

arxiv情報

著者 Minkyoung Cho,Yulong Cao,Jiachen Sun,Qingzhao Zhang,Marco Pavone,Jeong Joon Park,Heng Yang,Z. Morley Mao
発行日 2024-10-16 14:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク