Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies

要約

この論文では、画像分類器を知覚できない摂動に対して堅牢にするという単純で長い間研究されてきたがまだ解決されていない問題を再検討します。
CIFAR10を例にとると、SOTAのクリーン精度は約$100$%ですが、$\ell_{\infty}$-norm有界摂動に対するSOTAのロバスト性はかろうじて$70$%を超えます。
このギャップを理解するために、敵対的トレーニングのための最初のスケーリング則を開発することにより、モデル サイズ、データセット サイズ、合成データの品質が堅牢性にどのような影響を与えるかを分析します。
私たちのスケーリングの法則は、従来技術の非効率性を明らかにし、この分野を前進させるための実用的なフィードバックを提供します。
たとえば、SOTA メソッドは、堅牢性のレベルを高めるために過剰なコンピューティングを使用し、コンピューティング最適化セットアップから著しく逸脱していることを発見しました。
コンピューティング効率の高いセットアップを活用することで、以前の SOTA を上回り、トレーニング (推論) の FLOP が $20$% ($70$%) 削減されました。
私たちはさまざまな計算効率の高いモデルをトレーニングし、最高で $74$% の Auto Attack 精度 ($+3$% のゲイン) を達成しました。
しかし、私たちのスケーリングの法則は、堅牢性がゆっくりと成長し、その後 $90$% で頭打ちになることも予測しています。スケーリングによって新しい SOTA を矮小化することは非現実的であり、完璧な堅牢性は不可能です。
この予測された制限をよりよく理解するために、当社の最高パフォーマンスのモデルを騙す Auto Attack データに対して小規模な人による評価を実行します。
気になることに、人間のパフォーマンスも $90$% 付近で頭打ちになると推定されており、これは、$\ell_{\infty}$ 制約攻撃によって元のラベルと一致しない無効なイメージが生成されることが原因であることがわかります。
制限的な障害を特徴づけたので、将来の研究に向けた有望な道筋を概説します。

要約(オリジナル)

This paper revisits the simple, long-studied, yet still unsolved problem of making image classifiers robust to imperceptible perturbations. Taking CIFAR10 as an example, SOTA clean accuracy is about $100$%, but SOTA robustness to $\ell_{\infty}$-norm bounded perturbations barely exceeds $70$%. To understand this gap, we analyze how model size, dataset size, and synthetic data quality affect robustness by developing the first scaling laws for adversarial training. Our scaling laws reveal inefficiencies in prior art and provide actionable feedback to advance the field. For instance, we discovered that SOTA methods diverge notably from compute-optimal setups, using excess compute for their level of robustness. Leveraging a compute-efficient setup, we surpass the prior SOTA with $20$% ($70$%) fewer training (inference) FLOPs. We trained various compute-efficient models, with our best achieving $74$% AutoAttack accuracy ($+3$% gain). However, our scaling laws also predict robustness slowly grows then plateaus at $90$%: dwarfing our new SOTA by scaling is impractical, and perfect robustness is impossible. To better understand this predicted limit, we carry out a small-scale human evaluation on the AutoAttack data that fools our top-performing model. Concerningly, we estimate that human performance also plateaus near $90$%, which we show to be attributable to $\ell_{\infty}$-constrained attacks’ generation of invalid images not consistent with their original labels. Having characterized limiting roadblocks, we outline promising paths for future research.

arxiv情報

著者 Brian R. Bartoldson,James Diffenderfer,Konstantinos Parasyris,Bhavya Kailkhura
発行日 2024-07-10 17:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク