Scaling Adversarial Training to Large Perturbation Bounds

要約

敵対的攻撃に対するディープ ニューラル ネットワークの脆弱性は、堅牢なモデルの構築に向けた研究に拍車をかけています。
ほとんどの Adversarial Training アルゴリズムは、低マグニチュード Lp ノルムの範囲内に制約された攻撃を防御することを目的としていますが、現実世界の敵はそのような制約によって制限されません。
この作業では、知覚可能な摂動に対して、より大きな範囲内で敵対的ロバスト性を達成することを目指していますが、人間 (またはオラクル) の予測は変更しません。
オラクルの予測を覆す画像とそうでない画像の存在により、これは敵対的ロバスト性の挑戦的な設定になります。
知覚限界を超えた敵対的防御アルゴリズムの理想的な目標について説明し、既存のトレーニング アルゴリズムをより高い摂動限界まで単純に拡張することの欠点をさらに強調します。
これらの欠点を克服するために、敵対的トレーニング中にネットワークの予測をオラクルの予測と一致させるための新しい防御、Oracle-Aligned Adversarial Training (OA-AT) を提案します。
提案されたアプローチは、既存の防御 (AWP、TRADES、PGD-AT) を標準の境界 (
8/255) も。

要約(オリジナル)

The vulnerability of Deep Neural Networks to Adversarial Attacks has fuelled research towards building robust models. While most Adversarial Training algorithms aim at defending attacks constrained within low magnitude Lp norm bounds, real-world adversaries are not limited by such constraints. In this work, we aim to achieve adversarial robustness within larger bounds, against perturbations that may be perceptible, but do not change human (or Oracle) prediction. The presence of images that flip Oracle predictions and those that do not makes this a challenging setting for adversarial robustness. We discuss the ideal goals of an adversarial defense algorithm beyond perceptual limits, and further highlight the shortcomings of naively extending existing training algorithms to higher perturbation bounds. In order to overcome these shortcomings, we propose a novel defense, Oracle-Aligned Adversarial Training (OA-AT), to align the predictions of the network with that of an Oracle during adversarial training. The proposed approach achieves state-of-the-art performance at large epsilon bounds (such as an L-inf bound of 16/255 on CIFAR-10) while outperforming existing defenses (AWP, TRADES, PGD-AT) at standard bounds (8/255) as well.

arxiv情報

著者 Sravanti Addepalli,Samyak Jain,Gaurang Sriramanan,R. Venkatesh Babu
発行日 2022-10-18 13:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, stat.ML パーマリンク