OODRobustBench: benchmarking and analyzing adversarial robustness under distribution shift

要約

既存の研究は、敵対的堅牢性の向上において大きな進歩を遂げていますが、通常は、トレーニング データと同じ分布からのデータ、つまり分布内 (ID) テストでのみメソッドをテストします。
結果として、そのような堅牢性が入力分布のシフト、つまり分布外 (OOD) テストの下でどのように一般化されるかは不明です。
メソッドが実際に展開される場合、このような分布の変化は避けられないため、これは憂慮すべき省略です。
この問題に対処するために、我々は 23 のデータセットごとのシフト (つまり、入力分布の自然主義的なシフト) と 6 つの脅威ごとのシフト (つまり、予期せぬ敵対的脅威モデル) を使用して、OOD 敵対的堅牢性を包括的に評価する OODRobustBench というベンチマークを提案します。
OODRobustBench は、60.7K の敵対的評価を使用して 706 の堅牢なモデルを評価するために使用されます。
この大規模な分析は、次のことを示しています。1) 敵対的な堅牢性は、OOD 一般化の深刻な問題に悩まされています。
2) ID の堅牢性は、多くの分布シフトの下で、正の線形で OOD の堅牢性と強く相関します。
後者では、ID の堅牢性から OOD の堅牢性を予測できます。
これに基づいて、既存のロバストなトレーニング スキームの OOD ロバスト性の上限を予測できます。
この結果は、OOD の堅牢性を達成するには、従来の方法を超えた新しい方法を設計する必要があることを示唆しています。
最後に、追加データ、データ拡張、高度なモデル アーキテクチャ、および特定の正則化アプローチによって OOD の堅牢性を向上できることがわかりました。
注目すべきことに、発見されたトレーニング スキームは、ベースラインと比較して、高い ID 堅牢性を維持しながら脅威シフトの下で劇的に高い堅牢性を示し、マルチ攻撃と予期せぬ攻撃の両方に対する堅牢性に関する新しい有望なソリューションを示しています。

要約(オリジナル)

Existing works have made great progress in improving adversarial robustness, but typically test their method only on data from the same distribution as the training data, i.e. in-distribution (ID) testing. As a result, it is unclear how such robustness generalizes under input distribution shifts, i.e. out-of-distribution (OOD) testing. This is a concerning omission as such distribution shifts are unavoidable when methods are deployed in the wild. To address this issue we propose a benchmark named OODRobustBench to comprehensively assess OOD adversarial robustness using 23 dataset-wise shifts (i.e. naturalistic shifts in input distribution) and 6 threat-wise shifts (i.e., unforeseen adversarial threat models). OODRobustBench is used to assess 706 robust models using 60.7K adversarial evaluations. This large-scale analysis shows that: 1) adversarial robustness suffers from a severe OOD generalization issue; 2) ID robustness correlates strongly with OOD robustness, in a positive linear way, under many distribution shifts. The latter enables the prediction of OOD robustness from ID robustness. Based on this, we are able to predict the upper limit of OOD robustness for existing robust training schemes. The results suggest that achieving OOD robustness requires designing novel methods beyond the conventional ones. Last, we discover that extra data, data augmentation, advanced model architectures and particular regularization approaches can improve OOD robustness. Noticeably, the discovered training schemes, compared to the baseline, exhibit dramatically higher robustness under threat shift while keeping high ID robustness, demonstrating new promising solutions for robustness against both multi-attack and unforeseen attacks.

arxiv情報

著者 Lin Li,Yifei Wang,Chawin Sitawarin,Michael Spratling
発行日 2023-10-19 14:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク