Fuzziness-tuned: Improving the Transferability of Adversarial Examples

要約

敵対的攻撃の開発に伴い、深層ニューラル ネットワークでのトレーニング モデルの堅牢性を高めるために、敵対的例が広く使用されてきました。
敵対的な例の転送可能性を改善するための敵対的攻撃のかなりの努力が開発されていますが、代理モデルに対する転送ベースの攻撃の攻撃成功率は、低い攻撃強度 (例えば、攻撃強度
$\epsilon=8/255$)。
この論文では、最初にこの問題を体系的に調査し、代理モデルと被害者モデルの間の攻撃成功率の大きな違いは、敵対者がいる特別な領域 (私たちの論文ではファジードメインとして知られている) の存在によって引き起こされることを発見しました。
この領域の例は、サロゲート モデルでは正しく分類されませんが、被害者モデルでは正しく分類されます。
次に、生成された敵対的例の転送可能性を改善するための攻撃成功率のそのような巨大な差を排除するために、信頼度スケーリングメカニズムと温度スケーリングメカニズムからなるファジー調整された方法が提案され、生成された敵対的例がファジードメインから効果的にスキップできるようにします。
.
信頼度スケーリング メカニズムと温度スケーリング メカニズムは、それぞれファジーの勾配降下重みを調整し、更新方向を安定化することで、生成された敵対的サンプルのファジーを共同で調整できます。
具体的には、提案されたファジー調整された方法を既存の敵対的攻撃と効果的に統合して、時間の複雑さを変えることなく敵対的例の転送可能性をさらに改善することができます。
広範な実験により、ファジネス調整された方法が、最新の転送ベースの攻撃における敵対的な例の転送可能性を効果的に強化できることが実証されました。

要約(オリジナル)

With the development of adversarial attacks, adversairal examples have been widely used to enhance the robustness of the training models on deep neural networks. Although considerable efforts of adversarial attacks on improving the transferability of adversarial examples have been developed, the attack success rate of the transfer-based attacks on the surrogate model is much higher than that on victim model under the low attack strength (e.g., the attack strength $\epsilon=8/255$). In this paper, we first systematically investigated this issue and found that the enormous difference of attack success rates between the surrogate model and victim model is caused by the existence of a special area (known as fuzzy domain in our paper), in which the adversarial examples in the area are classified wrongly by the surrogate model while correctly by the victim model. Then, to eliminate such enormous difference of attack success rates for improving the transferability of generated adversarial examples, a fuzziness-tuned method consisting of confidence scaling mechanism and temperature scaling mechanism is proposed to ensure the generated adversarial examples can effectively skip out of the fuzzy domain. The confidence scaling mechanism and the temperature scaling mechanism can collaboratively tune the fuzziness of the generated adversarial examples through adjusting the gradient descent weight of fuzziness and stabilizing the update direction, respectively. Specifically, the proposed fuzziness-tuned method can be effectively integrated with existing adversarial attacks to further improve the transferability of adverarial examples without changing the time complexity. Extensive experiments demonstrated that fuzziness-tuned method can effectively enhance the transferability of adversarial examples in the latest transfer-based attacks.

arxiv情報

著者 Xiangyuan Yang,Jie Lin,Hanlin Zhang,Xinyu Yang,Peng Zhao
発行日 2023-03-17 16:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク