要約
信頼できる機械学習における既存の研究は、主に単一入力の敵対的摂動に焦点を当てています。
現実世界の多くの攻撃シナリオでは、入力に依存しない敵対的な攻撃が行われます。
普遍的敵対的摂動 (UAP) の方がはるかに実現可能です。
現在の認定トレーニング方法は、単一入力の摂動に対して堅牢なモデルをトレーニングしますが、クリーンで UAP の精度が最適に達していないため、実際のアプリケーションへの適用性が制限されています。
私たちは、UAP 攻撃者に対して堅牢なネットワークの認定トレーニングのための新しい手法 CITRUS を提案します。
さまざまなデータセット、アーキテクチャ、摂動の大きさにわたる広範な評価で、私たちの手法が標準精度 (最大 10.3\%) で従来の認定トレーニング手法を上回り、より実用的な認定 UAP 精度メトリクスで SOTA パフォーマンスを達成していることを示しています。
要約(オリジナル)
Existing work in trustworthy machine learning primarily focuses on single-input adversarial perturbations. In many real-world attack scenarios, input-agnostic adversarial attacks, e.g. universal adversarial perturbations (UAPs), are much more feasible. Current certified training methods train models robust to single-input perturbations but achieve suboptimal clean and UAP accuracy, thereby limiting their applicability in practical applications. We propose a novel method, CITRUS, for certified training of networks robust against UAP attackers. We show in an extensive evaluation across different datasets, architectures, and perturbation magnitudes that our method outperforms traditional certified training methods on standard accuracy (up to 10.3\%) and achieves SOTA performance on the more practical certified UAP accuracy metric.
arxiv情報
著者 | Changming Xu,Gagandeep Singh |
発行日 | 2024-09-09 17:09:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google