Enhancing Targeted Attack Transferability via Diversified Weight Pruning

要約

悪意のある攻撃者は、人間が認識できないノイズを画像に加えることで、標的を絞った敵対的な例を生成し、ニューラル ネットワーク モデルに特定の誤った出力を生成させることができます。
クロスモデル転送可能な敵対者の例では、モデル情報が攻撃者から秘密にされていても、ニューラル ネットワークの脆弱性は残ります。
最近の研究では、譲渡可能な敵対的例を生成する際のアンサンブルベースの方法の有効性が示されています。
ただし、既存の方法は、異なるモデル間で移行可能な標的型攻撃を作成するというより困難なシナリオには不十分です。
この作業では、モデル圧縮で一般的に使用される重みプルーニング方法を活用することにより、アンサンブルベースの方法をさらに強化するために、多様な重みプルーニング (DWP) を提案します。
具体的には、ランダム重み枝刈り法により複数の多様なモデルを取得します。
これらのモデルは同様の精度を維持し、アンサンブルベースの方法の追加モデルとして機能し、より強力な転送可能な標的型攻撃を生み出します。
より困難なシナリオでの ImageNet 互換データセットの実験が提供されます: 異なるアーキテクチャへの移行と、敵対的に訓練されたモデルへの移行。
結果は、提案された DWP が標的型攻撃の成功率を、最先端の手法の組み合わせでそれぞれ最大 4.1% および 8.0% 改善することを示しています。

要約(オリジナル)

Malicious attackers can generate targeted adversarial examples by imposing human-imperceptible noise on images, forcing neural network models to produce specific incorrect outputs. With cross-model transferable adversarial examples, the vulnerability of neural networks remains even if the model information is kept secret from the attacker. Recent studies have shown the effectiveness of ensemble-based methods in generating transferable adversarial examples. However, existing methods fall short under the more challenging scenario of creating targeted attacks transferable among distinct models. In this work, we propose Diversified Weight Pruning (DWP) to further enhance the ensemble-based methods by leveraging the weight pruning method commonly used in model compression. Specifically, we obtain multiple diverse models by a random weight pruning method. These models preserve similar accuracies and can serve as additional models for ensemble-based methods, yielding stronger transferable targeted attacks. Experiments on ImageNet-Compatible Dataset under the more challenging scenarios are provided: transferring to distinct architectures and to adversarially trained models. The results show that our proposed DWP improves the targeted attack success rates with up to 4.1% and 8.0% on the combination of state-of-the-art methods, respectively

arxiv情報

著者 Hung-Jui Wang,Yu-Yu Wu,Shang-Tse Chen
発行日 2022-08-18 07:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク