要約
タイトル:クラス分類と多数の明示的検出クラスを用いた敵対的な耐性の向上
要約:
この研究は、敵対的攻撃に対して証明可能な強精度ネットワークの開発に関わる。敵対的例は正しく分類されるか「棄権」クラスに割り当てられるようになっているので、クラス分類-検出の証明された防御機構を改良する方針を立てる。本研究では、このような証明された枠組みを、敵対的例が適応的に割り当てられる複数の明示的棄権クラスのネットワークに拡張できることを示す。この際、多数の棄権クラスを単純に加えると「モデル退化」を引き起こすことがわかり、多数の棄権クラスをフルに活用することを促進する方法とトレーニング方法を提唱することで、この退化を防ぐ。研究実験では、提案したアプローチが、多数の棄権クラスの選択肢に対して、安定した標準対耐性検証済みの正確性のトレードオフを持ち、最新のアルゴリズムを上回ることが示される。
– 証明可能な枠組みがクラス分類-検出の防御機構において有望な手法である
– 複数の棄権クラスを加えると、「モデル退化」が起こることがある
– 複数の棄権クラスをフルに活用するための正則化アプローチとトレーニング方法を提唱することで、モデル退化を防ぐことができる
– 実験により、提案手法が安定した標準対耐性検証済みの正確性のトレードオフを持ち、最新のアルゴリズムを上回ることが示される。
要約(オリジナル)
This work concerns the development of deep networks that are certifiably robust to adversarial attacks. Joint robust classification-detection was recently introduced as a certified defense mechanism, where adversarial examples are either correctly classified or assigned to the ‘abstain’ class. In this work, we show that such a provable framework can benefit by extension to networks with multiple explicit abstain classes, where the adversarial examples are adaptively assigned to those. We show that naively adding multiple abstain classes can lead to ‘model degeneracy’, then we propose a regularization approach and a training method to counter this degeneracy by promoting full use of the multiple abstain classes. Our experiments demonstrate that the proposed approach consistently achieves favorable standard vs. robust verified accuracy tradeoffs, outperforming state-of-the-art algorithms for various choices of number of abstain classes.
arxiv情報
著者 | Sina Baharlouei,Fatemeh Sheikholeslami,Meisam Razaviyayn,Zico Kolter |
発行日 | 2023-05-10 22:33:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI