Introducing Foundation Models as Surrogate Models: Advancing Towards More Practical Adversarial Attacks

要約

最近では、攻撃者がモデルのアーキテクチャ、重み、トレーニング データにアクセスできないノーボックス敵対攻撃が、最も実用的で困難な攻撃設定となっています。
ただし、ノーボックス設定での代理モデル選択プロセスに固有の可能性と柔軟性については認識されていません。
下流タスクに対処するために基礎モデルを利用することへの関心の高まりに触発されて、この文書では、1) 敵対的攻撃を下流タスクとして再構築するという革新的なアイデアを採用しています。
具体的には、新たなトレンドに対応するための画像ノイズ生成、および 2) サロゲート モデルとしての基礎モデルの導入です。
非ロバスト機能の概念を利用して、サロゲート モデルの選択に関する 2 つの指針について詳しく説明し、この役割にとって基本モデルが最適な選択である理由を説明します。
しかし、逆説的ですが、これらの基礎モデルのパフォーマンスが劣っていることがわかります。
特徴空間内でのこの予期せぬ動作を分析すると、基礎モデル (CLIP など) のパフォーマンスが精彩を欠いているのは、その顕著な表現能力と、逆に、識別能力の欠如によるものであると考えられます。
この問題を軽減するために、ターゲット画像の基本モデルを微調整するためのマージンベースの損失戦略の使用を提案します。
実験結果は、基本的な高速勾配符号法 (FGSM) 攻撃アルゴリズムを使用する私たちのアプローチが、他のより複雑なアルゴリズムのパフォーマンスを上回ることを証明しています。
私たちは研究コミュニティに対して、ノーボックス設定における敵対的攻撃の有効性を決定する重要な決定要因としてサロゲート モデルを考慮することを提唱して締めくくります。
私たちの研究の意義は、このような敵対的攻撃の有効性と AI システム全体の堅牢性の向上に関連しています。

要約(オリジナル)

Recently, the no-box adversarial attack, in which the attacker lacks access to the model’s architecture, weights, and training data, become the most practical and challenging attack setup. However, there is an unawareness of the potential and flexibility inherent in the surrogate model selection process on no-box setting. Inspired by the burgeoning interest in utilizing foundational models to address downstream tasks, this paper adopts an innovative idea that 1) recasting adversarial attack as a downstream task. Specifically, image noise generation to meet the emerging trend and 2) introducing foundational models as surrogate models. Harnessing the concept of non-robust features, we elaborate on two guiding principles for surrogate model selection to explain why the foundational model is an optimal choice for this role. However, paradoxically, we observe that these foundational models underperform. Analyzing this unexpected behavior within the feature space, we attribute the lackluster performance of foundational models (e.g., CLIP) to their significant representational capacity and, conversely, their lack of discriminative prowess. To mitigate this issue, we propose the use of a margin-based loss strategy for the fine-tuning of foundational models on target images. The experimental results verify that our approach, which employs the basic Fast Gradient Sign Method (FGSM) attack algorithm, outstrips the performance of other, more convoluted algorithms. We conclude by advocating for the research community to consider surrogate models as crucial determinants in the effectiveness of adversarial attacks in no-box settings. The implications of our work bear relevance for improving the efficacy of such adversarial attacks and the overall robustness of AI systems.

arxiv情報

著者 Jiaming Zhang,Jitao Sang,Qi Yi
発行日 2023-07-13 08:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク