要約
ディープ ニューラル ネットワーク (DNN) が広範に適用されるため、その現実世界の堅牢性、つまり、DNN がブラックボックス敵対的攻撃に耐えられるかどうかに対する注目がますます高まっています。その中でも、スコアベースのクエリ攻撃 (SQA) は最も脅威です。
モデル出力への唯一のアクセスにより、被害者のネットワークに事実上損害を与える可能性があります。
SQA から防御するには、SQA と同じ出力情報を共有するユーザーのサービス目的に応じて、出力をわずかながら巧妙に変更する必要があります。
この論文では、異なるデータの Unifying Gradients (UniG) による現実世界の防御を提案します。これにより、SQA は、異なるサンプルで類似したはるかに弱い攻撃方向のみを調査できるようになります。
このような普遍的な攻撃の摂動は入力固有の摂動よりも攻撃的ではないことが検証されているため、UniG は攻撃者にねじれた情報の少ない攻撃方向を示すことで現実世界の DNN を保護します。
プラグアンドプレイのアダマール積モジュールにより UniG を効率的に実装します。
5 つの SQA、2 つの適応型攻撃、および 7 つの防御ベースラインに関する広範な実験によると、UniG は、CIFAR10 および ImageNet での正確な精度を損なうことなく、現実世界の堅牢性を大幅に向上させます。
たとえば、UniG は 2500 クエリの Square 攻撃に対して 77.80% の精度を維持するモデルを維持していますが、敵対的にトレーニングされた最先端のモデルは CIFAR10 では 67.34% しかありません。
同時に、UniG はクリーンな精度の点で比較したすべてのベースラインを上回り、モデル出力の変更を最小限に抑えます。
コードは https://github.com/snowien/UniG-pytorch で公開されています。
要約(オリジナル)
The wide application of deep neural networks (DNNs) demands an increasing amount of attention to their real-world robustness, i.e., whether a DNN resists black-box adversarial attacks, among which score-based query attacks (SQAs) are most threatening since they can effectively hurt a victim network with the only access to model outputs. Defending against SQAs requires a slight but artful variation of outputs due to the service purpose for users, who share the same output information with SQAs. In this paper, we propose a real-world defense by Unifying Gradients (UniG) of different data so that SQAs could only probe a much weaker attack direction that is similar for different samples. Since such universal attack perturbations have been validated as less aggressive than the input-specific perturbations, UniG protects real-world DNNs by indicating attackers a twisted and less informative attack direction. We implement UniG efficiently by a Hadamard product module which is plug-and-play. According to extensive experiments on 5 SQAs, 2 adaptive attacks and 7 defense baselines, UniG significantly improves real-world robustness without hurting clean accuracy on CIFAR10 and ImageNet. For instance, UniG maintains a model of 77.80% accuracy under 2500-query Square attack while the state-of-the-art adversarially-trained model only has 67.34% on CIFAR10. Simultaneously, UniG outperforms all compared baselines in terms of clean accuracy and achieves the smallest modification of the model output. The code is released at https://github.com/snowien/UniG-pytorch.
arxiv情報
著者 | Yingwen Wu,Sizhe Chen,Kun Fang,Xiaolin Huang |
発行日 | 2023-08-24 14:22:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google