要約
DNN の敵対的例 (AE) は移転可能であることが示されています。ホワイト ボックス サロゲート モデルを騙すことに成功した AE は、異なるアーキテクチャを持つ他のブラック ボックス モデルも騙す可能性があります。
多くの実証研究が、転移性の高い AE を生成するための指針を提供してきましたが、これらの発見の多くは説明が不足しており、一貫性のないアドバイスにつながることさえあります。
このホワイトペーパーでは、特にサロゲートの側面に焦点を当てて、敵対的転送可能性の理解に向けてさらに一歩を踏み出します。
穏やかに摂動された敵対的サンプルを使用して敵対的にトレーニングされたモデルがより優れた代理として機能するという、興味深い小さな堅牢性現象から出発して、モデルの滑らかさと勾配の類似性という 2 つの主要な要素の間のトレードオフに起因すると考えます。
私たちの調査は、譲渡可能性との個別の相関関係ではなく、それらの共同効果に焦点を当てています。
一連の理論的および経験的分析を通じて、敵対的トレーニングにおけるデータ分布の変化が勾配の類似性の低下を説明していると推測します。
これらの洞察に基づいて、データ拡張と勾配正則化が転送可能性に及ぼす影響を調査し、一般的にさまざまなトレーニング メカニズムにトレードオフが存在することを特定し、転送可能性の背後にある規制メカニズムの包括的な青写真を構築します。
最後に、モデルの滑らかさと勾配の類似性の両方を同時に最適化する、より良いサロゲートを構築するための一般的なルートを提供します。たとえば、入力勾配の正則化とシャープネスを意識した最小化 (SAM) の組み合わせであり、広範な実験によって検証されています。
要約すると、効果的な転送攻撃を開始するには、一方を最適化して他方を無視するのではなく、これら 2 つの要素の総合的な影響に注意を払うよう呼びかけ、サロゲート モデルを操作することが重要な役割を果たしている点を強調します。
要約(オリジナル)
Adversarial examples (AEs) for DNNs have been shown to be transferable: AEs that successfully fool white-box surrogate models can also deceive other black-box models with different architectures. Although a bunch of empirical studies have provided guidance on generating highly transferable AEs, many of these findings lack explanations and even lead to inconsistent advice. In this paper, we take a further step towards understanding adversarial transferability, with a particular focus on surrogate aspects. Starting from the intriguing little robustness phenomenon, where models adversarially trained with mildly perturbed adversarial samples can serve as better surrogates, we attribute it to a trade-off between two predominant factors: model smoothness and gradient similarity. Our investigations focus on their joint effects, rather than their separate correlations with transferability. Through a series of theoretical and empirical analyses, we conjecture that the data distribution shift in adversarial training explains the degradation of gradient similarity. Building on these insights, we explore the impacts of data augmentation and gradient regularization on transferability and identify that the trade-off generally exists in the various training mechanisms, thus building a comprehensive blueprint for the regulation mechanism behind transferability. Finally, we provide a general route for constructing better surrogates to boost transferability which optimizes both model smoothness and gradient similarity simultaneously, e.g., the combination of input gradient regularization and sharpness-aware minimization (SAM), validated by extensive experiments. In summary, we call for attention to the united impacts of these two factors for launching effective transfer attacks, rather than optimizing one while ignoring the other, and emphasize the crucial role of manipulating surrogate models.
arxiv情報
著者 | Yechao Zhang,Shengshan Hu,Leo Yu Zhang,Junyu Shi,Minghui Li,Xiaogeng Liu,Wei Wan,Hai Jin |
発行日 | 2023-08-08 15:13:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google