Boosting Black-box Attack to Deep Neural Networks with Conditional Diffusion Models

要約

既存のブラックボックス攻撃は、深層学習モデルを欺くための敵対的例 (AE) を作成する有望な可能性を実証しています。
これらの攻撃のほとんどは、広大な最適化空間を処理する必要があり、多数のクエリを必要とするため、現実のシナリオでは実用的な影響は限定的です。
この論文では、クエリが制限された状況下で AE を生成するクエリ効率を向上させるために、新しいブラックボックス攻撃戦略である条件付き拡散モデル攻撃 (CDMA) を提案します。
CDMA の重要な洞察は、AE 合成のタスクを分布変換問題として定式化することです。つまり、良性の例とそれに対応する AE は 2 つの特徴的な分布から来たものと見なすことができ、特定のコンバーターを使用して相互に変換できます。
従来の \textit{クエリと最適化} アプローチとは異なり、前述のデータ コンバーターを使用した直接条件付き変換で適格な AE を生成します。これにより、必要なクエリの数を大幅に削減できます。
CDMA は、条件付きノイズ除去拡散確率モデルをコンバーターとして採用しており、クリーンなサンプルから AE への変換を学習し、さまざまな防御戦略に耐性のある摂動ノイズのスムーズな開発を保証します。
CDMA を 3 つのベンチマーク データセットにわたる 9 つの最先端のブラックボックス攻撃と比較することにより、CDMA の有効性と効率性を実証します。
平均して、CDMA はクエリ数を数回に減らすことができます。
ほとんどの場合、クエリ数は 1 つだけです。
また、CDMA は、$\epsilon=16$ のノイズ バジェットで、すべてのデータセットに対する非ターゲット攻撃と CIFAR-10 に対するターゲット攻撃に対して $>99\%$ の攻撃成功率を達成できることも示します。

要約(オリジナル)

Existing black-box attacks have demonstrated promising potential in creating adversarial examples (AE) to deceive deep learning models. Most of these attacks need to handle a vast optimization space and require a large number of queries, hence exhibiting limited practical impacts in real-world scenarios. In this paper, we propose a novel black-box attack strategy, Conditional Diffusion Model Attack (CDMA), to improve the query efficiency of generating AEs under query-limited situations. The key insight of CDMA is to formulate the task of AE synthesis as a distribution transformation problem, i.e., benign examples and their corresponding AEs can be regarded as coming from two distinctive distributions and can transform from each other with a particular converter. Unlike the conventional \textit{query-and-optimization} approach, we generate eligible AEs with direct conditional transform using the aforementioned data converter, which can significantly reduce the number of queries needed. CDMA adopts the conditional Denoising Diffusion Probabilistic Model as the converter, which can learn the transformation from clean samples to AEs, and ensure the smooth development of perturbed noise resistant to various defense strategies. We demonstrate the effectiveness and efficiency of CDMA by comparing it with nine state-of-the-art black-box attacks across three benchmark datasets. On average, CDMA can reduce the query count to a handful of times; in most cases, the query count is only ONE. We also show that CDMA can obtain $>99\%$ attack success rate for untarget attacks over all datasets and targeted attack over CIFAR-10 with the noise budget of $\epsilon=16$.

arxiv情報

著者 Renyang Liu,Wei Zhou,Tianwei Zhang,Kangjie Chen,Jun Zhao,Kwok-Yan Lam
発行日 2023-10-11 13:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク