SSAP: A Shape-Sensitive Adversarial Patch for Comprehensive Disruption of Monocular Depth Estimation in Autonomous Navigation Applications

要約

単眼深度推定 (MDE) は、主に畳み込みニューラル ネットワーク (CNN) と最近ではトランスフォーマーの統合によって大幅に進歩しました。
しかし、特に自動運転やロボットナビゲーションなどの安全性が重要な領域では、敵対的な攻撃に対する脆弱性に関する懸念が浮上しています。
CNN ベースの深度予測方法を評価するための既存のアプローチは、視覚システムに包括的な混乱を引き起こすには不十分であり、多くの場合、特定の局所領域に限定されています。
この論文では、自律ナビゲーション アプリケーションにおける単眼深度推定 (MDE) を包括的に妨害するように設計された新しいアプローチである SSAP (Shape-Sensitive Adversarial Patch) を紹介します。
私たちのパッチは、推定距離を歪めるか、システムの視点から物体が消えるかのような錯覚を作り出すという 2 つの異なる方法で、選択的に MDE を弱めるように作成されています。
特に、私たちのパッチは形状に敏感です。つまり、ターゲット オブジェクトの特定の形状とスケールを考慮し、その影響をすぐ近くを超えて拡大します。
さらに、私たちのパッチは、さまざまなスケールやカメラからの距離に効果的に対処するようにトレーニングされています。
実験結果は、私たちのアプローチが 0.5 を超える平均深度推定誤差を引き起こし、CNN ベースの MDE モデルのターゲット領域の最大 99% に影響を与えることを示しています。
さらに、パッチ ベースの攻撃に対する Transformer ベースの MDE モデルの脆弱性を調査し、SSAP が 0.59 という重大な誤差をもたらし、これらのモデルのターゲット領域の 99% に大きな影響を及ぼしていることが明らかになりました。

要約(オリジナル)

Monocular depth estimation (MDE) has advanced significantly, primarily through the integration of convolutional neural networks (CNNs) and more recently, Transformers. However, concerns about their susceptibility to adversarial attacks have emerged, especially in safety-critical domains like autonomous driving and robotic navigation. Existing approaches for assessing CNN-based depth prediction methods have fallen short in inducing comprehensive disruptions to the vision system, often limited to specific local areas. In this paper, we introduce SSAP (Shape-Sensitive Adversarial Patch), a novel approach designed to comprehensively disrupt monocular depth estimation (MDE) in autonomous navigation applications. Our patch is crafted to selectively undermine MDE in two distinct ways: by distorting estimated distances or by creating the illusion of an object disappearing from the system’s perspective. Notably, our patch is shape-sensitive, meaning it considers the specific shape and scale of the target object, thereby extending its influence beyond immediate proximity. Furthermore, our patch is trained to effectively address different scales and distances from the camera. Experimental results demonstrate that our approach induces a mean depth estimation error surpassing 0.5, impacting up to 99% of the targeted region for CNN-based MDE models. Additionally, we investigate the vulnerability of Transformer-based MDE models to patch-based attacks, revealing that SSAP yields a significant error of 0.59 and exerts substantial influence over 99% of the target region on these models.

arxiv情報

著者 Amira Guesmi,Muhammad Abdullah Hanif,Ihsen Alouani,Bassem Ouni,Muhammad Shafique
発行日 2024-03-18 07:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク