要約
マルチセンサによる物体検出は、自動運転における活発な研究テーマであるが、突然のセンサ故障などによるセンサ入力の欠落(モダリティの欠落)に対する検出モデルのロバスト性は、まだ十分に研究されていない重要な問題である。本研究では、モダリティ欠損に対するロバスト性を考慮して設計されたエンドツーエンドのマルチモーダル3D物体検出フレームワークであるUniBEVを提案する:UniBEVは、LiDAR+カメラ入力だけでなく、LiDARのみ、あるいはカメラのみの入力に対しても再トレーニングなしで動作することができる。UniBEVは、様々な入力の組み合わせに対応できるよう、検出ヘッドを容易にするため、利用可能な各モダリティから整合のとれた鳥瞰図(BEV)特徴マップを作成することを目的としています。先行するBEVベースのマルチモーダル検出手法とは異なり、全てのセンサモダリティは、ネイティブセンサ座標系からBEV特徴量へ特徴量を再サンプルする統一的なアプローチに従う。さらに、様々な融合戦略の欠落モダリティに対する頑健性を調査する:一般的に使用される特徴連結、チャンネル単位の平均化、チャンネル正規化重みと呼ばれる重み付き平均化の一般化。UniBEVの有効性を検証するため、すべてのセンサー入力の組み合わせについて、nuScenes上でUniBEVを最先端のBEVFusionおよびMetaBEVと比較する。この設定において、UniBEVは全入力の組み合わせで平均$52.5 ㎉%$のmAPを達成し、ベースライン(BEVFusionは平均$43.5 ㎉%$、MetaBEVは平均$48.7 ㎉%$)より大幅に改善した。BEVFusionでは平均$43.5 ㎤%$ mAP、MetaBEVでは平均$48.7 ㎤%$ mAP)。論文が受理され次第、コードを公開する予定である。
要約(オリジナル)
Multi-sensor object detection is an active research topic in automated driving, but the robustness of such detection models against missing sensor input (modality missing), e.g., due to a sudden sensor failure, is a critical problem which remains under-studied. In this work, we propose UniBEV, an end-to-end multi-modal 3D object detection framework designed for robustness against missing modalities: UniBEV can operate on LiDAR plus camera input, but also on LiDAR-only or camera-only input without retraining. To facilitate its detector head to handle different input combinations, UniBEV aims to create well-aligned Bird’s Eye View (BEV) feature maps from each available modality. Unlike prior BEV-based multi-modal detection methods, all sensor modalities follow a uniform approach to resample features from the native sensor coordinate systems to the BEV features. We furthermore investigate the robustness of various fusion strategies w.r.t. missing modalities: the commonly used feature concatenation, but also channel-wise averaging, and a generalization to weighted averaging termed Channel Normalized Weights. To validate its effectiveness, we compare UniBEV to state-of-the-art BEVFusion and MetaBEV on nuScenes over all sensor input combinations. In this setting, UniBEV achieves $52.5 \%$ mAP on average over all input combinations, significantly improving over the baselines ($43.5 \%$ mAP on average for BEVFusion, $48.7 \%$ mAP on average for MetaBEV). An ablation study shows the robustness benefits of fusing by weighted averaging over regular concatenation, and of sharing queries between the BEV encoders of each modality. Our code will be released upon paper acceptance.
arxiv情報
| 著者 | Shiming Wang,Holger Caesar,Liangliang Nan,Julian F. P. Kooij |
| 発行日 | 2024-04-02 18:57:12+00:00 |
| arxivサイト | arxiv_id(pdf) |