Adversarially Robust Out-of-Distribution Detection Using Lyapunov-Stabilized Embeddings

要約

配布外 (OOD) 検出が大幅に進歩したにもかかわらず、既存の手法は依然として敵対的な攻撃に対する堅牢性を維持するのに苦労しており、現実世界の重要なアプリケーションにおける信頼性が損なわれています。
これまでの研究では、敵対的トレーニングと並行して検出器を補助的な OOD データセットに公開することで、この課題に対処しようと試みてきました。
ただし、敵対的トレーニングに固有のデータの複雑さの増加と、テスト中に OOD サンプルが無数に発生する可能性があるため、多くの場合、これらのアプローチでは堅牢な決定境界を確立できません。
これらの制限に対処するために、私たちは、OOD 検出のための堅牢な埋め込みを取得するためにリアプノフ安定定理を備えた神経常微分方程式 (NODE) を活用する新しいアプローチである AROS を提案します。
カスタマイズされた損失関数を組み込むことにより、リアプノフ安定理論を適用して、分布内 (ID) データと OOD データの両方が動的システム内の安定した平衡点に確実に収束するようにします。
このアプローチは、摂動された入力が安定した平衡状態に戻ることを促進し、それによって敵対的な摂動に対するモデルのロバスト性を強化します。
追加のデータを使用しないために、ID データ特徴空間の尤度の低い領域からサンプリングして偽の OOD 埋め込みを生成し、OOD データが存在する可能性が高い境界を近似します。
次に、ロバスト性をさらに強化するために、安定した特徴空間に続く直交バイナリ層の使用を提案します。これにより、ID サンプルと OOD サンプルの平衡点間の分離が最大化されます。
私たちは、いくつかのベンチマークにわたる広範な実験を通じてメソッドを検証し、特に敵対的な攻撃の下で優れたパフォーマンスを実証しています。
特に、私たちのアプローチにより、堅牢な検出パフォーマンスが CIFAR-10 対 CIFAR-100 で 37.8% から 80.1%、CIFAR-100 対 CIFAR-10 で 29.0% から 67.0% に向上しました。

要約(オリジナル)

Despite significant advancements in out-of-distribution (OOD) detection, existing methods still struggle to maintain robustness against adversarial attacks, compromising their reliability in critical real-world applications. Previous studies have attempted to address this challenge by exposing detectors to auxiliary OOD datasets alongside adversarial training. However, the increased data complexity inherent in adversarial training, and the myriad of ways that OOD samples can arise during testing, often prevent these approaches from establishing robust decision boundaries. To address these limitations, we propose AROS, a novel approach leveraging neural ordinary differential equations (NODEs) with Lyapunov stability theorem in order to obtain robust embeddings for OOD detection. By incorporating a tailored loss function, we apply Lyapunov stability theory to ensure that both in-distribution (ID) and OOD data converge to stable equilibrium points within the dynamical system. This approach encourages any perturbed input to return to its stable equilibrium, thereby enhancing the model’s robustness against adversarial perturbations. To not use additional data, we generate fake OOD embeddings by sampling from low-likelihood regions of the ID data feature space, approximating the boundaries where OOD data are likely to reside. To then further enhance robustness, we propose the use of an orthogonal binary layer following the stable feature space, which maximizes the separation between the equilibrium points of ID and OOD samples. We validate our method through extensive experiments across several benchmarks, demonstrating superior performance, particularly under adversarial attacks. Notably, our approach improves robust detection performance from 37.8% to 80.1% on CIFAR-10 vs. CIFAR-100 and from 29.0% to 67.0% on CIFAR-100 vs. CIFAR-10.

arxiv情報

著者 Hossein Mirzaei,Mackenzie W. Mathis
発行日 2024-10-14 17:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク