Fusion is Not Enough: Single Modal Attacks on Fusion Models for 3D Object Detection

要約

マルチセンサーフュージョン(MSF)は、自律走行車(AV)の知覚、特にカメラとLiDARセンサーによる3D物体検出に広く使用されている。フュージョンの目的は、各モダリティの利点を活かしつつ、その弱点を最小限に抑えることである。先進的なディープニューラルネットワーク(DNN)ベースのフュージョン技術は、業界をリードする卓越した性能を実証しています。複数のモダリティにおける冗長な情報のため、MSFは敵対的攻撃に対する一般的な防御戦略としても認識されている。本論文では、フュージョンにおける重要性は低いが、攻撃者にとって手頃なカメラモダリティからフュージョンモデルを攻撃する。我々は、フュージョンモデルの最も脆弱なリンクは、最も脆弱なモダリティに依存すると主張し、カメラのみの敵対的攻撃を通じて、高度なカメラ-LiDARフュージョンベースの3D物体検出モデルをターゲットとする攻撃フレームワークを提案する。我々のアプローチは2段階の最適化ベースの戦略を採用しており、まず敵対的攻撃において脆弱な画像領域を徹底的に評価し、次に展開可能なパッチを生成するために、異なる融合モデルに対して専用の攻撃戦略を適用する。6つの先進的なカメラとLiDARの融合モデルと1つのカメラのみのモデルで評価した結果、我々の攻撃は全てのモデルを危険にさらすことに成功しました。我々のアプローチは、検出性能の平均平均精度(mAP)を0.824から0.353に低下させるか、ターゲットオブジェクトの検出スコアを0.728から0.156に低下させることができ、提案する攻撃フレームワークの有効性を実証する。コードが利用可能です。

要約(オリジナル)

Multi-sensor fusion (MSF) is widely used in autonomous vehicles (AVs) for perception, particularly for 3D object detection with camera and LiDAR sensors. The purpose of fusion is to capitalize on the advantages of each modality while minimizing its weaknesses. Advanced deep neural network (DNN)-based fusion techniques have demonstrated the exceptional and industry-leading performance. Due to the redundant information in multiple modalities, MSF is also recognized as a general defence strategy against adversarial attacks. In this paper, we attack fusion models from the camera modality that is considered to be of lesser importance in fusion but is more affordable for attackers. We argue that the weakest link of fusion models depends on their most vulnerable modality, and propose an attack framework that targets advanced camera-LiDAR fusion-based 3D object detection models through camera-only adversarial attacks. Our approach employs a two-stage optimization-based strategy that first thoroughly evaluates vulnerable image areas under adversarial attacks, and then applies dedicated attack strategies for different fusion models to generate deployable patches. The evaluations with six advanced camera-LiDAR fusion models and one camera-only model indicate that our attacks successfully compromise all of them. Our approach can either decrease the mean average precision (mAP) of detection performance from 0.824 to 0.353, or degrade the detection score of a target object from 0.728 to 0.156, demonstrating the efficacy of our proposed attack framework. Code is available.

arxiv情報

著者 Zhiyuan Cheng,Hongjun Choi,James Liang,Shiwei Feng,Guanhong Tao,Dongfang Liu,Michael Zuzak,Xiangyu Zhang
発行日 2024-03-02 17:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV パーマリンク