RobustBlack: Challenging Black-Box Adversarial Attacks on State-of-the-Art Defenses

要約

敵対的な堅牢性はホワイト ボックス設定で広く研究されてきましたが、ブラック ボックス攻撃 (転送ベースおよびクエリ ベースのアプローチを含む) の最近の進歩は主に弱い防御に対してベンチマークされており、より最近のものに対する有効性の評価には大きなギャップが残されています。
中程度の堅牢なモデル (Robustbench リーダーボードに掲載されているモデルなど)。
本稿では、ブラックボックス攻撃から堅牢なモデルまでのこの注意の欠如に疑問を呈します。
私たちは、ImageNet データセット上で、最高性能の防御メカニズムと標準的な防御メカニズムの両方に対する最近のブラックボックス攻撃の有効性を評価するフレームワークを確立します。
私たちの経験的評価により、次の重要な発見が明らかになりました。(1) 最も高度なブラックボックス攻撃は、敵対的に訓練された単純なモデルに対してさえ成功するのに苦労します。
(2) Auto Attack などの強力なホワイトボックス攻撃に耐えるように最適化された堅牢なモデルは、ブラックボックス攻撃に対する回復力も強化されています。
(3) サロゲート モデルとターゲット モデル間の堅牢性の調整は、転送ベースの攻撃の成功率において重要な要素となります。

要約(オリジナル)

Although adversarial robustness has been extensively studied in white-box settings, recent advances in black-box attacks (including transfer- and query-based approaches) are primarily benchmarked against weak defenses, leaving a significant gap in the evaluation of their effectiveness against more recent and moderate robust models (e.g., those featured in the Robustbench leaderboard). In this paper, we question this lack of attention from black-box attacks to robust models. We establish a framework to evaluate the effectiveness of recent black-box attacks against both top-performing and standard defense mechanisms, on the ImageNet dataset. Our empirical evaluation reveals the following key findings: (1) the most advanced black-box attacks struggle to succeed even against simple adversarially trained models; (2) robust models that are optimized to withstand strong white-box attacks, such as AutoAttack, also exhibits enhanced resilience against black-box attacks; and (3) robustness alignment between the surrogate models and the target model plays a key factor in the success rate of transfer-based attacks

arxiv情報

著者 Mohamed Djilani,Salah Ghamizi,Maxime Cordy
発行日 2024-12-30 14:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 パーマリンク