要約
ディープ ニューラル ネットワークは、敵対的攻撃 (AA) に対して脆弱であることが知られています。
画像認識タスクの場合、これは、元の画像に小さな乱れがあると、画像が誤って分類される可能性があることを意味します。
このような攻撃の設計と、それに対する敵対的訓練の方法は、熱心な研究の対象となっています。
私たちは、Wasserstein 分布ロバスト最適化 (DRO) の手法を使用して問題を再構築し、DRO 感度分析からの最近の洞察を活用して新たな貢献を得ました。
一連の分布脅威モデルを検討します。
各入力データ ポイントの摂動に一定の限界があると仮定する従来の点単位の攻撃とは異なり、分散型脅威モデルでは、攻撃者が不均一な方法で入力を摂動することができます。
私たちは、これらのより一般的な攻撃を、サンプル外のパフォーマンスやナイトの不確実性の問題と関連付けます。
ニューラル ネットワークの分布の堅牢性を評価するために、一次 AA アルゴリズムとその多段階バージョンを提案します。
当社の攻撃アルゴリズムには、特殊なケースとして高速勾配符号法 (FGSM) と投影勾配降下法 (PGD) が含まれています。
さらに、分布型脅威モデルに対する敵対的精度の新しい漸近推定値を提供します。
境界は計算が速く、一次精度が高く、点単位の AA に対しても新しい洞察を提供します。
また、サンプル外のパフォーマンスも当然保証されます。
RobustBench の DNN を使用して CIFAR-10 データセットで数値実験を行い、理論的結果を説明します。
私たちのコードは https://github.com/JanObloj/W-DRO-Adversarial-Methods で入手できます。
要約(オリジナル)
Deep neural networks are known to be vulnerable to adversarial attacks (AA). For an image recognition task, this means that a small perturbation of the original can result in the image being misclassified. Design of such attacks as well as methods of adversarial training against them are subject of intense research. We re-cast the problem using techniques of Wasserstein distributionally robust optimization (DRO) and obtain novel contributions leveraging recent insights from DRO sensitivity analysis. We consider a set of distributional threat models. Unlike the traditional pointwise attacks, which assume a uniform bound on perturbation of each input data point, distributional threat models allow attackers to perturb inputs in a non-uniform way. We link these more general attacks with questions of out-of-sample performance and Knightian uncertainty. To evaluate the distributional robustness of neural networks, we propose a first-order AA algorithm and its multi-step version. Our attack algorithms include Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD) as special cases. Furthermore, we provide a new asymptotic estimate of the adversarial accuracy against distributional threat models. The bound is fast to compute and first-order accurate, offering new insights even for the pointwise AA. It also naturally yields out-of-sample performance guarantees. We conduct numerical experiments on the CIFAR-10 dataset using DNNs on RobustBench to illustrate our theoretical results. Our code is available at https://github.com/JanObloj/W-DRO-Adversarial-Methods.
arxiv情報
著者 | Xingjian Bai,Guangyi He,Yifan Jiang,Jan Obloj |
発行日 | 2023-06-16 13:41:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google