Imperceptible Adversarial Examples in the Physical World

要約

ディープラーニングベースのコンピュータービジョンモデルに対するデジタルドメインの敵対的な例では、人間の目には知覚できない摂動が可能になります。
しかし、視覚感知システムにおける微分不可能な画像歪み関数のため、物理世界で同様の敵対的な例を作成することは困難でした。
物理的に実現可能な敵対例を生成するための既存のアルゴリズムは、無制限の摂動を許可することで敵対例の定義を緩めることが多く、その結果、明白な、あるいは奇妙な視覚的なパターンさえも生じます。
この研究では、ストレートスルー推定器 (STE、別名 BPDA) を使用して、物理世界で敵対的な例を知覚できないようにします。
私たちは、微分不可能性を克服するために STE を採用しています。バックプロパゲーション ステップの順方向パスで正確な微分不可能な歪みを適用し、逆方向パスで恒等関数を使用します。
STE に対する微分可能レンダリング拡張機能により、物理世界における知覚できない敵対的パッチも可能になります。
プリントアウトした写真と CARLA シミュレータでの実験を使用して、微分不可能な歪みにもかかわらず、STE が $\ell_\infty$ の境界のある敵対的な例を高速に生成できることを示します。
私たちの知る限り、これは物理世界の小さな $\ell_\infty$ 規範に制限された、地球規模の摂動脅威モデルで分類精度をゼロに強制し、ほぼゼロ ($4.22\%) を引き起こす、知覚できない敵対的な例を実証した最初の研究です。
$) パッチ摂動脅威モデルにおけるオブジェクト検出の AP50。
私たちはコミュニティに対し、物理世界における敵対的な例の脅威を再評価するよう促します。

要約(オリジナル)

Adversarial examples in the digital domain against deep learning-based computer vision models allow for perturbations that are imperceptible to human eyes. However, producing similar adversarial examples in the physical world has been difficult due to the non-differentiable image distortion functions in visual sensing systems. The existing algorithms for generating physically realizable adversarial examples often loosen their definition of adversarial examples by allowing unbounded perturbations, resulting in obvious or even strange visual patterns. In this work, we make adversarial examples imperceptible in the physical world using a straight-through estimator (STE, a.k.a. BPDA). We employ STE to overcome the non-differentiability — applying exact, non-differentiable distortions in the forward pass of the backpropagation step, and using the identity function in the backward pass. Our differentiable rendering extension to STE also enables imperceptible adversarial patches in the physical world. Using printout photos, and experiments in the CARLA simulator, we show that STE enables fast generation of $\ell_\infty$ bounded adversarial examples despite the non-differentiable distortions. To the best of our knowledge, this is the first work demonstrating imperceptible adversarial examples bounded by small $\ell_\infty$ norms in the physical world that force zero classification accuracy in the global perturbation threat model and cause near-zero ($4.22\%$) AP50 in object detection in the patch perturbation threat model. We urge the community to re-evaluate the threat of adversarial examples in the physical world.

arxiv情報

著者 Weilin Xu,Sebastian Szyller,Cory Cornelius,Luis Murillo Rojas,Marius Arvinte,Alvaro Velasquez,Jason Martin,Nageen Himayat
発行日 2024-11-25 18:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク