要約
画像モデル間の敵対的摂動の伝達可能性は、広く研究されています。
この場合、既知のサロゲート \eg、ImageNet トレーニング モデルから攻撃が生成され、画像データセットでトレーニングされた未知の (ブラック ボックス) モデルの決定を変更するために転送されます。
ただし、画像モデルから生成された攻撃は、画像モデル内に一時的な手がかりがないため、動くオブジェクトや変化するシーンの動的な性質を捉えることはできません。
これにより、Supervised Vision Transformers (ViTs)、Self-supervised ViTs (\eg, DINO)、および Vision-language Models (\eg, CLIP) などの表現強化 \emph{image} モデルから敵対的攻撃の転送可能性が低下します。
ブラックボックス \emph{video} モデル。
この作業では、画像の元のパフォーマンスを犠牲にすることなく、画像モデル内に動的なキューを誘導します。
この目的のために、モーション ダイナミクスをキャプチャするために凍結された画像モデルを通じて \emph{temporal prompts} を最適化します。
私たちの時間プロンプトは、敵対的な攻撃中に時間勾配を最適化してモーションダイナミクスをだますことを可能にする学習可能な変換の結果です。
具体的には、タスク固有のプロンプトを通じて、同じソース モデル内に空間 (画像) および時間 (ビデオ) の手がかりを導入します。
このようなプロンプトを攻撃すると、画像モデル用に設計された攻撃を使用して、画像からビデオへ、および画像から画像へのモデルから敵対的な転送可能性が最大化されます。
私たちの攻撃結果は、攻撃者が特殊なアーキテクチャを必要としないことを示しています。たとえば、分割された時空間注意、3D 畳み込み、またはさまざまなデータ モダリティ用のマルチビュー畳み込みネットワークです。
画像モデルは、敵対的攻撃を最適化して、時間の経過とともに変化する環境でブラックボックス モデルをだますための効果的な代用物です。
コードは https://bit.ly/3Xd9gRQ で入手できます
要約(オリジナル)
The transferability of adversarial perturbations between image models has been extensively studied. In this case, an attack is generated from a known surrogate \eg, the ImageNet trained model, and transferred to change the decision of an unknown (black-box) model trained on an image dataset. However, attacks generated from image models do not capture the dynamic nature of a moving object or a changing scene due to a lack of temporal cues within image models. This leads to reduced transferability of adversarial attacks from representation-enriched \emph{image} models such as Supervised Vision Transformers (ViTs), Self-supervised ViTs (\eg, DINO), and Vision-language models (\eg, CLIP) to black-box \emph{video} models. In this work, we induce dynamic cues within the image models without sacrificing their original performance on images. To this end, we optimize \emph{temporal prompts} through frozen image models to capture motion dynamics. Our temporal prompts are the result of a learnable transformation that allows optimizing for temporal gradients during an adversarial attack to fool the motion dynamics. Specifically, we introduce spatial (image) and temporal (video) cues within the same source model through task-specific prompts. Attacking such prompts maximizes the adversarial transferability from image-to-video and image-to-image models using the attacks designed for image models. Our attack results indicate that the attacker does not need specialized architectures, \eg, divided space-time attention, 3D convolutions, or multi-view convolution networks for different data modalities. Image models are effective surrogates to optimize an adversarial attack to fool black-box models in a changing environment over time. Code is available at https://bit.ly/3Xd9gRQ
arxiv情報
著者 | Muzammal Naseer,Ahmad Mahmood,Salman Khan,Fahad Khan |
発行日 | 2023-02-23 18:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google