UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities

要約

マルチセンサーによる物体検出は、自動運転における活発な研究テーマですが、突然のセンサー故障などによるセンサー入力の欠落(モダリティの欠落)に対するそのような検出モデルの堅牢性は、依然として研究が不足している重大な問題です。
この研究では、不足モダリティに対する堅牢性を目的に設計されたエンドツーエンドのマルチモーダル 3D オブジェクト検出フレームワークである UniBEV を提案します。UniBEV は、LiDAR とカメラ入力で動作するだけでなく、再トレーニングすることなく LiDAR のみまたはカメラのみの入力でも動作できます。

検出器ヘッドがさまざまな入力の組み合わせを処理しやすくするために、UniBEV は、利用可能な各モダリティから適切に調整された鳥瞰図 (BEV) 特徴マップを作成することを目指しています。
従来の BEV ベースのマルチモーダル検出方法とは異なり、すべてのセンサー モダリティは、ネイティブ センサー座標系から BEV 特徴に特徴をリサンプリングする統一的なアプローチに従います。
我々はさらに、さまざまな融合戦略の堅牢性を調査します。
欠けているモダリティ: 一般的に使用される特徴の連結だけでなく、チャネルごとの平均化、およびチャネル正規化重みと呼ばれる加重平均への一般化も含まれます。
その有効性を検証するために、すべてのセンサー入力の組み合わせについて、nuScenes 上の UniBEV を最先端の BEVFusion および MetaBEV と比較します。
この設定では、UniBEV はすべての入力の組み合わせで平均 $52.5 \%$ mAP を達成し、ベースラインより大幅に改善しました (BEVFusion の場合は平均 $43.5 \%$ mAP、MetaBEV の場合は平均 $48.7 \%$ mAP)。
アブレーション研究では、通常の連結に対する加重平均による融合と、各モダリティの BEV エンコーダ間でクエリを共有することによる堅牢性の利点が示されています。
私たちのコードは https://github.com/tudelft-iv/UniBEV で入手できます。

要約(オリジナル)

Multi-sensor object detection is an active research topic in automated driving, but the robustness of such detection models against missing sensor input (modality missing), e.g., due to a sudden sensor failure, is a critical problem which remains under-studied. In this work, we propose UniBEV, an end-to-end multi-modal 3D object detection framework designed for robustness against missing modalities: UniBEV can operate on LiDAR plus camera input, but also on LiDAR-only or camera-only input without retraining. To facilitate its detector head to handle different input combinations, UniBEV aims to create well-aligned Bird’s Eye View (BEV) feature maps from each available modality. Unlike prior BEV-based multi-modal detection methods, all sensor modalities follow a uniform approach to resample features from the native sensor coordinate systems to the BEV features. We furthermore investigate the robustness of various fusion strategies w.r.t. missing modalities: the commonly used feature concatenation, but also channel-wise averaging, and a generalization to weighted averaging termed Channel Normalized Weights. To validate its effectiveness, we compare UniBEV to state-of-the-art BEVFusion and MetaBEV on nuScenes over all sensor input combinations. In this setting, UniBEV achieves $52.5 \%$ mAP on average over all input combinations, significantly improving over the baselines ($43.5 \%$ mAP on average for BEVFusion, $48.7 \%$ mAP on average for MetaBEV). An ablation study shows the robustness benefits of fusing by weighted averaging over regular concatenation, and of sharing queries between the BEV encoders of each modality. Our code is available at https://github.com/tudelft-iv/UniBEV.

arxiv情報

著者 Shiming Wang,Holger Caesar,Liangliang Nan,Julian F. P. Kooij
発行日 2024-05-08 13:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク