Distributional Adversarial Loss

要約

敵対的な攻撃から防御する際の主な課題は、単純な敵対者であっても実行される可能性のある攻撃の可能性が膨大であることです。
これに対処するために、これまでの研究では、この空間のサイズを効果的に縮小するさまざまな防御が提案されてきました。
これらには、敵対者の影響の一部を取り除くために入力にノイズを追加するランダム化された平滑化手法が含まれます。
もう 1 つのアプローチは、敵対者の可能なアクションの数を制限する入力の離散化です。
これら 2 つのアプローチを動機として、敵対者を効果的に弱めるこれら 2 つの形式を統合するために、分布的敵対的損失と呼ぶ敵対的損失の新しい概念を導入します。
この概念では、元の例ごとに、許容される敵対的摂動セットは分布のファミリー (たとえば、平滑化手順によって引き起こされる) であり、各例にわたる敵対的損失は、関連するすべての分布にわたる最大損失であると仮定します。
目標は、全体的な敵対的損失を最小限に抑えることです。
仮説クラスの VC 次元と、各入力に関連付けられた許容される敵対的分布のセットのサイズに関して、敵対的損失の概念の一般化保証を示します。
また、上記の方法で敵対的攻撃に対する堅牢性を達成する際のランダム性の役割も調査します。
敵対的な攻撃に対するランダム化された分類器の堅牢性の程度を維持する一般的な逆ランダム化手法を示します。
\cite{dong2023adversarial} のランダム投影フィルター フレームワークを非ランダム化することで、実験的に手順を確認します。
私たちの手順により、さまざまな敵対的攻撃に対するモデルの堅牢性も向上します。

要約(オリジナル)

A major challenge in defending against adversarial attacks is the enormous space of possible attacks that even a simple adversary might perform. To address this, prior work has proposed a variety of defenses that effectively reduce the size of this space. These include randomized smoothing methods that add noise to the input to take away some of the adversary’s impact. Another approach is input discretization which limits the adversary’s possible number of actions. Motivated by these two approaches, we introduce a new notion of adversarial loss which we call distributional adversarial loss, to unify these two forms of effectively weakening an adversary. In this notion, we assume for each original example, the allowed adversarial perturbation set is a family of distributions (e.g., induced by a smoothing procedure), and the adversarial loss over each example is the maximum loss over all the associated distributions. The goal is to minimize the overall adversarial loss. We show generalization guarantees for our notion of adversarial loss in terms of the VC-dimension of the hypothesis class and the size of the set of allowed adversarial distributions associated with each input. We also investigate the role of randomness in achieving robustness against adversarial attacks in the methods described above. We show a general derandomization technique that preserves the extent of a randomized classifier’s robustness against adversarial attacks. We corroborate the procedure experimentally via derandomizing the Random Projection Filters framework of \cite{dong2023adversarial}. Our procedure also improves the robustness of the model against various adversarial attacks.

arxiv情報

著者 Saba Ahmadi,Siddharth Bhandari,Avrim Blum,Chen Dan,Prabhav Jain
発行日 2024-06-05 17:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク