Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

要約

鳥瞰図 (BEV) 表現における最近の進歩により、車内の 3D 認識が大幅に可能になることが示されています。
ただし、これらの方法は標準ベンチマークで優れた結果を達成していますが、さまざまな条件における堅牢性の評価は依然として不十分です。
この研究では、BEV アルゴリズムの回復力を評価するために設計された広範なベンチマーク スイートである RoboBEV を紹介します。
このスイートには、さまざまな種類のカメラ破損のセットが組み込まれており、それぞれが 3 つの重大度レベルで検査されます。
私たちのベンチマークでは、マルチモーダル モデルの使用時に発生するセンサー全体の障害の影響も考慮されています。
RoboBEV を通じて、検出、地図のセグメンテーション、奥行き推定、占有予測などのタスクにわたる 33 の最先端の BEV ベースの知覚モデルを評価します。
私たちの分析により、分布内のデータセットでのモデルのパフォーマンスと分布外の課題に対するモデルの回復力との間に顕著な相関関係があることが明らかになりました。
私たちの実験結果は、分布外データに対する堅牢性を高めるための事前トレーニングや深さのない BEV 変換などの戦略の有効性も強調しています。
さらに、広範な時間情報を活用することでモデルの堅牢性が大幅に向上することがわかりました。
私たちの観察に基づいて、CLIP モデルに基づいた効果的な堅牢性強化戦略を設計します。
この研究から得られた洞察は、精度と実際の堅牢性をシームレスに組み合わせる将来の BEV モデルの開発への道を開きます。

要約(オリジナル)

Recent advancements in bird’s eye view (BEV) representations have shown remarkable promise for in-vehicle 3D perception. However, while these methods have achieved impressive results on standard benchmarks, their robustness in varied conditions remains insufficiently assessed. In this study, we present RoboBEV, an extensive benchmark suite designed to evaluate the resilience of BEV algorithms. This suite incorporates a diverse set of camera corruption types, each examined over three severity levels. Our benchmarks also consider the impact of complete sensor failures that occur when using multi-modal models. Through RoboBEV, we assess 33 state-of-the-art BEV-based perception models spanning tasks like detection, map segmentation, depth estimation, and occupancy prediction. Our analyses reveal a noticeable correlation between the model’s performance on in-distribution datasets and its resilience to out-of-distribution challenges. Our experimental results also underline the efficacy of strategies like pre-training and depth-free BEV transformations in enhancing robustness against out-of-distribution data. Furthermore, we observe that leveraging extensive temporal information significantly improves the model’s robustness. Based on our observations, we design an effective robustness enhancement strategy based on the CLIP model. The insights from this study pave the way for the development of future BEV models that seamlessly combine accuracy with real-world robustness.

arxiv情報

著者 Shaoyuan Xie,Lingdong Kong,Wenwei Zhang,Jiawei Ren,Liang Pan,Kai Chen,Ziwei Liu
発行日 2024-05-27 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク