Enhancing targeted transferability via feature space fine-tuning

要約

敵対的例 (AE) は、プライバシー保護と堅牢なニューラル ネットワークの可能性があるため、広範囲に研究されてきました。
ただし、ターゲット AE を未知のモデル間で転送可能にすることは依然として困難です。
この論文では、既存の単純な反復攻撃によって作成された AE によく見られる過剰適合のジレンマを軽減するために、特徴空間で AE を微調整することを提案します。
具体的には、ベースライン攻撃によって生成された AE から始めて、ターゲット クラスに寄与する機能を奨励し、ソース モデルの中間層にある元のクラスに寄与する機能を抑制します。
広範な実験により、微調整を数回繰り返すだけで、ターゲットを絞った転送可能性の観点から既存の攻撃を非自明かつ普遍的に強化できることが実証されています。
また、我々の結果は、単純な反復攻撃が、ターゲット固有の分類器や生成器を追加データでトレーニングすることに依存する、リソースを大量に消費する方法と同等か、それ以上の転送可能性をもたらすことを検証しています。
コードは github.com/zengh5/TA_feature_FT から入手できます。

要約(オリジナル)

Adversarial examples (AEs) have been extensively studied due to their potential for privacy protection and inspiring robust neural networks. However, making a targeted AE transferable across unknown models remains challenging. In this paper, to alleviate the overfitting dilemma common in an AE crafted by existing simple iterative attacks, we propose fine-tuning it in the feature space. Specifically, starting with an AE generated by a baseline attack, we encourage the features that contribute to the target class and discourage the features that contribute to the original class in a middle layer of the source model. Extensive experiments demonstrate that only a few iterations of fine-tuning can boost existing attacks in terms of targeted transferability nontrivially and universally. Our results also verify that the simple iterative attacks can yield comparable or even better transferability than the resource-intensive methods, which rely on training target-specific classifiers or generators with additional data. The code is available at: github.com/zengh5/TA_feature_FT.

arxiv情報

著者 Hui Zeng,Biwei Chen,Anjie Peng
発行日 2024-01-05 09:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク