要約
現実世界のシナリオに深層学習モデルを安全に導入するには、分布外 (OOD) 入力の検出が重要です。
近年、多くの OOD 検出器が開発され、ベンチマークも OpenOOD として標準化されました。
ポストホック検出器の数は急速に増加しており、事前トレーニングされた分類器を自然な分布の変化から保護するオプションを示しており、現実世界のシナリオに対応できると主張しています。
しかし、敵対的な例に対処する際のその有効性は、ほとんどの研究で無視されてきました。
この論文では、いくつかの回避攻撃に対する 16 個の事後検出器の敵対的堅牢性を調査し、OOD 検出器における敵対的防御に向けたロードマップについて説明します。
要約(オリジナル)
Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in real-world scenarios. In recent years, many OOD detectors have been developed, and even the benchmarking has been standardized, i.e. OpenOOD. The number of post-hoc detectors is growing fast and showing an option to protect a pre-trained classifier against natural distribution shifts, claiming to be ready for real-world scenarios. However, its efficacy in handling adversarial examples has been neglected in the majority of studies. This paper investigates the adversarial robustness of the 16 post-hoc detectors on several evasion attacks and discuss a roadmap towards adversarial defense in OOD detectors.
arxiv情報
著者 | Peter Lorenz,Mario Fernandez,Jens Müller,Ullrich Köthe |
発行日 | 2024-06-21 12:45:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google