Boosting the Adversarial Transferability of Surrogate Model with Dark Knowledge

要約

画像分類用のディープニューラルネットワーク(DNN)は、敵対的な例に対して脆弱であることが知られています。
また、敵対的な例には転送可能性があります。つまり、DNNモデルの敵対的な例は、自明ではない確率で別のブラックボックスモデルをだますことができます。
これにより、転送ベースの敵対的攻撃が生まれました。事前にトレーニングされたモデルまたは既知のモデル(代理モデルと呼ばれる)によって生成された敵対的な例を使用して、ブラックボックス攻撃を実行します。
より良い転送可能性を達成するために、与えられた代理モデルから敵対的な例を生成する方法に関するいくつかの作業があります。
ただし、より優れた転送可能性を備えた敵対的な例を生成するために特別な代理モデルをトレーニングすることは、比較的十分に検討されていません。
本論文では、代理モデルによって生成された敵対的例の敵対的移転可能性を高めるために、豊富な暗黒知識を備えた代理モデルを訓練する方法を提案する。
この訓練された代理モデルはダーク代理モデル(DSM)と呼ばれ、DSMを訓練するために提案された方法は、暗い知識を抽出してソフトラベルを提供する教師モデルと、訓練データの暗い知識を強化する混合増強スキルの2つの主要コンポーネントで構成されます。

提案された方法が、敵対的な例を生成するための代理モデルおよびオプティマイザの異なるアーキテクチャにわたる代理モデルの敵対的な転送可能性を大幅に改善できることを示すために、広範な実験が行われた。
また、提案された方法が、顔の検証など、暗い知識を含む転送ベースの攻撃の他のシナリオに適用できることも示します。

要約(オリジナル)

Deep neural networks (DNNs) for image classification are known to be vulnerable to adversarial examples. And, the adversarial examples have transferability, which means an adversarial example for a DNN model can fool another black-box model with a non-trivial probability. This gave birth of the transfer-based adversarial attack where the adversarial examples generated by a pretrained or known model (called surrogate model) are used to conduct black-box attack. There are some work on how to generate the adversarial examples from a given surrogate model to achieve better transferability. However, training a special surrogate model to generate adversarial examples with better transferability is relatively under-explored. In this paper, we propose a method of training a surrogate model with abundant dark knowledge to boost the adversarial transferability of the adversarial examples generated by the surrogate model. This trained surrogate model is named dark surrogate model (DSM), and the proposed method to train DSM consists of two key components: a teacher model extracting dark knowledge and providing soft labels, and the mixing augmentation skill which enhances the dark knowledge of training data. Extensive experiments have been conducted to show that the proposed method can substantially improve the adversarial transferability of surrogate model across different architectures of surrogate model and optimizers for generating adversarial examples. We also show that the proposed method can be applied to other scenarios of transfer-based attack that contain dark knowledge, like face verification.

arxiv情報

著者 Dingcheng Yang,Zihao Xiao,Wenjian Yu
発行日 2022-06-16 17:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク