Provably Cost-Sensitive Adversarial Defense via Randomized Smoothing

要約

MLモデルは重要なアプリケーションでますます展開されているため、敵対的な摂動に対する堅牢性が重要です。
そのような攻撃に対抗するために多数の防御が提案されていますが、彼らは通常、すべての敵対的な変換も同様に重要であると仮定しています。
これに対処するために、私たちは、さまざまなタイプの誤分類の潜在的な害がコストマトリックスでエンコードされるコスト感受性シナリオの下で、敵対的な摂動に対する堅牢な学習の問題を研究します。
当社のソリューションでは、ランダム化された平滑化のスケーラブルな認証フレームワークに基づいて、コストに敏感な堅牢性を認証および最適化するために、証明された堅牢な学習アルゴリズムを導入します。
具体的には、コストに敏感な認定半径の定義を正式にし、標準認証アルゴリズムの新しい適応を提案して、コストマトリックスに合わせて調整された堅牢性証明書を生成します。
さらに、モデルの精度を損なうことなく、認定された費用に敏感な堅牢性を向上させる堅牢なトレーニング方法を設計します。
既存の方法では解決できない挑戦的なデータセットを含むベンチマークデータセットに関する広範な実験は、さまざまなコストに敏感なシナリオにわたる認証アルゴリズムとトレーニング方法の有効性を示しています。

要約(オリジナル)

As ML models are increasingly deployed in critical applications, robustness against adversarial perturbations is crucial. While numerous defenses have been proposed to counter such attacks, they typically assume that all adversarial transformations are equally important, an assumption that rarely aligns with real-world applications. To address this, we study the problem of robust learning against adversarial perturbations under cost-sensitive scenarios, where the potential harm of different types of misclassifications is encoded in a cost matrix. Our solution introduces a provably robust learning algorithm to certify and optimize for cost-sensitive robustness, building on the scalable certification framework of randomized smoothing. Specifically, we formalize the definition of cost-sensitive certified radius and propose our novel adaptation of the standard certification algorithm to generate tight robustness certificates tailored to any cost matrix. In addition, we design a robust training method that improves certified cost-sensitive robustness without compromising model accuracy. Extensive experiments on benchmark datasets, including challenging ones unsolvable by existing methods, demonstrate the effectiveness of our certification algorithm and training method across various cost-sensitive scenarios.

arxiv情報

著者 Yuan Xin,Dingfan Chen,Michael Backes,Xiao Zhang
発行日 2025-06-10 17:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク