RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM

要約

マルチモーダル 3D 物体検出器は、自動運転 (AD) のための安全で信頼性の高い認識システムの探索に特化しています。
ただし、クリーンなベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成する一方で、現実世界の環境の複雑さと過酷な条件を見落とす傾向があります。
一方、ビジュアル ファウンデーション モデル (VFM) の出現により、自動運転におけるマルチモーダル 3D 物体検出の堅牢性の向上と汎用化に対する機会と課題が提示されています。
したがって、私たちは、SAM のような VFM を活用して配信外 (OOD) ノイズ シナリオに取り組む堅牢なフレームワークである RoboFusion を提案します。
まず、オリジナルの SAM を SAM-AD という名前の自動運転シナリオに適応させます。
SAM または SAM-AD をマルチモーダル手法と連携させるために、SAM によって抽出された画像特徴をアップサンプリングするための AD-FPN を導入します。
ウェーブレット分解を使用して深度ガイド画像のノイズを除去し、さらなるノイズ低減と天候干渉を実現します。
最後に、セルフ アテンション メカニズムを採用して、融合された特徴を適応的に再重み付けし、過剰なノイズを抑制しながら有益な特徴を強化します。
要約すると、当社の RoboFusion は、VFM の汎用性と堅牢性を活用することでノイズを徐々に低減し、それによってマルチモーダル 3D オブジェクト検出の回復力を強化します。
その結果、KITTI-C および nuScenes-C ベンチマークで実証されているように、当社の RoboFusion はノイズの多いシナリオでも最先端のパフォーマンスを実現します。

要約(オリジナル)

Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD). However, while achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. Meanwhile, with the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in autonomous driving. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for autonomous driving scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. Lastly, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, our RoboFusion gradually reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, our RoboFusion achieves state-of-the-art performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks.

arxiv情報

著者 Ziying Song,Guoxing Zhang,Lin Liu,Lei Yang,Shaoqing Xu,Caiyan Jia,Feiyang Jia,Li Wang
発行日 2024-01-08 14:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク