要約
機械学習 (ML) 分類器にとって堅牢性は、モデルが破損した入力や敵対的な入力に遭遇する可能性がある現実世界のアプリケーションで一貫したパフォーマンスを保証するために重要です。
特に、敵対的な入力に対する分類子の堅牢性を評価することは、システムを脆弱性から保護し、使用時の安全性を確保するために不可欠です。
ただし、複雑な ML モデルや高次元データでは、敵対的な堅牢性を正確に計算する方法は困難でした。
さらに、評価では通常、特定の攻撃予算に対する敵対者の精度が測定され、結果として得られるメトリクスの有益な価値が制限されます。
この論文では、反復的な敵対的攻撃と認証アプローチを使用した、より有益な敵対的距離の推定について調査します。
これらの方法を組み合わせると、敵対的距離の上限と下限の推定値を計算することで、敵対的堅牢性の包括的な評価が可能になります。
この評価方法をどのように適用しパラメータ化するかについての洞察を提供する視覚化とアブレーション研究を紹介します。
当社の敵対的攻撃アプローチは関連する実装と比較して効果的である一方、認証方法は期待を下回っていることがわかりました。
この論文のアプローチは、ML 分類器の敵対的堅牢性を評価するためのより有益な方法を促進するはずです。
要約(オリジナル)
Robustness is critical for machine learning (ML) classifiers to ensure consistent performance in real-world applications where models may encounter corrupted or adversarial inputs. In particular, assessing the robustness of classifiers to adversarial inputs is essential to protect systems from vulnerabilities and thus ensure safety in use. However, methods to accurately compute adversarial robustness have been challenging for complex ML models and high-dimensional data. Furthermore, evaluations typically measure adversarial accuracy on specific attack budgets, limiting the informative value of the resulting metrics. This paper investigates the estimation of the more informative adversarial distance using iterative adversarial attacks and a certification approach. Combined, the methods provide a comprehensive evaluation of adversarial robustness by computing estimates for the upper and lower bounds of the adversarial distance. We present visualisations and ablation studies that provide insights into how this evaluation method should be applied and parameterised. We find that our adversarial attack approach is effective compared to related implementations, while the certification method falls short of expectations. The approach in this paper should encourage a more informative way of evaluating the adversarial robustness of ML classifiers.
arxiv情報
著者 | Georg Siedel,Ekagra Gupta,Andrey Morozov |
発行日 | 2024-09-05 14:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google