要約
タイトル:拒否のある層別の敵対的堅牢性
要約:
– 敵対的な訓練を行う分類器に、拒否オプション(選択的分類器とも呼ばれる)を搭載して敵対的堅牢性を向上させることに興味が高まっている。
– しかし、拒否は多くのアプリケーションでコストがかかるため、既存の研究では、微小に変更された入力を正しく分類できるにも関わらず、拒否することでコストをゼロに関連づけている。
– 本研究では、拒否コストが摂動の大きさに比例して単調減少する拒否損失関数によってモデル化された層別の拒否設定で敵対的堅牢性分類を研究する。
– 層別の拒否設定を理論的に分析し、一貫した予測ベースの拒否(CPR)による敵対的なトレーニングで堅牢な選択的分類器を構築するための新しい防御法を提案する。
– 画像データセットの実験では、提案された方法が強力な適応攻撃に対して既存の手法よりも優れていることが示される。
– CIFAR-10では、CPRは、異なる拒否損失に対して、見える攻撃と見えない攻撃の両方で、少なくとも7.3%の全体的な堅牢損失を削減する。
要約(オリジナル)
Recently, there is an emerging interest in adversarially training a classifier with a rejection option (also known as a selective classifier) for boosting adversarial robustness. While rejection can incur a cost in many applications, existing studies typically associate zero cost with rejecting perturbed inputs, which can result in the rejection of numerous slightly-perturbed inputs that could be correctly classified. In this work, we study adversarially-robust classification with rejection in the stratified rejection setting, where the rejection cost is modeled by rejection loss functions monotonically non-increasing in the perturbation magnitude. We theoretically analyze the stratified rejection setting and propose a novel defense method — Adversarial Training with Consistent Prediction-based Rejection (CPR) — for building a robust selective classifier. Experiments on image datasets demonstrate that the proposed method significantly outperforms existing methods under strong adaptive attacks. For instance, on CIFAR-10, CPR reduces the total robust loss (for different rejection losses) by at least 7.3% under both seen and unseen attacks.
arxiv情報
著者 | Jiefeng Chen,Jayaram Raghuram,Jihye Choi,Xi Wu,Yingyu Liang,Somesh Jha |
発行日 | 2023-05-02 01:04:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI