Understanding the Robustness of 3D Object Detection with Bird’s-Eye-View Representations in Autonomous Driving

要約

タイトル:自律走行におけるバードズアイビュー表現を用いた3D物体検出のロバスト性の理解

要約:

– 3D物体検出は自律走行において環境を把握するために必要な認識タスクです。
– バードズアイビュー(BEV)表現は、一般的なベンチマーク上でのカメラ入力を用いた3D検出器の性能を大幅に向上させています。
– しかし、BEVモデルのロバスト性については、自律走行システムの安全性と密接に関連しており、まだシステム的な理解が欠けています。
– 本論文では、さまざまな代表的なモデルの自然なロバスト性と敵対的なロバスト性を包括的に評価し、BEV機能がある場合とない場合とを比較します。
– さらに、3D一貫性のあるパッチ攻撃を提案し、自律走行のシナリオにより現実的な、空間的および時間的な整合性を保証するために、3D空間に敵対パッチを適用します。
– 大規模な実験により、以下の結果が得られました。1)BEVモデルは、表現的な空間表現による複数の自然状況および一般的な破損に対して、以前の方法よりも安定している傾向がある。2)BEVモデルは、敵対的ノイズに対して、BEV機能の冗長性によって主に引き起こされる脆弱性がある。3)カメラ-LiDAR統合モデルは、マルチモーダル入力の異なる設定下で優れた性能を発揮しますが、BEV統合モデルは、ポイントクラウドと画像の両方の敵対的なノイズに対して脆弱性があります。
– これらの結果は、BEV検出器のアプリケーションにおける安全問題に注意を喚起し、よりロバストなモデルの開発に役立つことが期待されます。

要約(オリジナル)

3D object detection is an essential perception task in autonomous driving to understand the environments. The Bird’s-Eye-View (BEV) representations have significantly improved the performance of 3D detectors with camera inputs on popular benchmarks. However, there still lacks a systematic understanding of the robustness of these vision-dependent BEV models, which is closely related to the safety of autonomous driving systems. In this paper, we evaluate the natural and adversarial robustness of various representative models under extensive settings, to fully understand their behaviors influenced by explicit BEV features compared with those without BEV. In addition to the classic settings, we propose a 3D consistent patch attack by applying adversarial patches in the 3D space to guarantee the spatiotemporal consistency, which is more realistic for the scenario of autonomous driving. With substantial experiments, we draw several findings: 1) BEV models tend to be more stable than previous methods under different natural conditions and common corruptions due to the expressive spatial representations; 2) BEV models are more vulnerable to adversarial noises, mainly caused by the redundant BEV features; 3) Camera-LiDAR fusion models have superior performance under different settings with multi-modal inputs, but BEV fusion model is still vulnerable to adversarial noises of both point cloud and image. These findings alert the safety issue in the applications of BEV detectors and could facilitate the development of more robust models.

arxiv情報

著者 Zijian Zhu,Yichi Zhang,Hai Chen,Yinpeng Dong,Shu Zhao,Wenbo Ding,Jiachen Zhong,Shibao Zheng
発行日 2023-03-30 11:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.CV パーマリンク