Characterizing the Optimal 0-1 Loss for Multi-class Classification with a Test-time Attacker

要約

敵対的な例に対してロバストな分類器を見つけることは、それらを安全に展開するために重要です。
したがって、特定のデータ分布の特定の脅威モデルの下で可能な限り最良の分類子の堅牢性を判断し、それを最先端のトレーニング方法によって達成されたものと比較することは、重要な診断ツールです。
この論文では、離散データセットのマルチクラス分類子のテスト時間攻撃者の存在下で、達成可能な情報理論的な損失の下限を見つけます。
データと敵対的制約からの競合ハイパーグラフの構築を中心に展開する、最適な 0-1 損失を見つけるための一般的なフレームワークを提供します。
さらに、本格的なハイパーグラフ構築よりも効率的に最適な損失の範囲を決定する、攻撃者分類子ゲームの他のバリアントを定義します。
私たちの評価は、初めて、ベンチマーク データセットのマルチクラス設定における分類子の最適な堅牢性へのギャップの分析を示しています。

要約(オリジナル)

Finding classifiers robust to adversarial examples is critical for their safe deployment. Determining the robustness of the best possible classifier under a given threat model for a given data distribution and comparing it to that achieved by state-of-the-art training methods is thus an important diagnostic tool. In this paper, we find achievable information-theoretic lower bounds on loss in the presence of a test-time attacker for multi-class classifiers on any discrete dataset. We provide a general framework for finding the optimal 0-1 loss that revolves around the construction of a conflict hypergraph from the data and adversarial constraints. We further define other variants of the attacker-classifier game that determine the range of the optimal loss more efficiently than the full-fledged hypergraph construction. Our evaluation shows, for the first time, an analysis of the gap to optimal robustness for classifiers in the multi-class setting on benchmark datasets.

arxiv情報

著者 Sihui Dai,Wenxin Ding,Arjun Nitin Bhagoji,Daniel Cullina,Ben Y. Zhao,Haitao Zheng,Prateek Mittal
発行日 2023-02-21 15:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク