要約
堅牢性を向上させるための敵対的トレーニング戦略に関する広範な研究にもかかわらず、最も堅牢な深層学習モデルであっても、その決定は依然として知覚できない摂動に非常に敏感である可能性があり、一か八かの現実世界のアプリケーションにモデルを展開する際に深刻なリスクが生じます。
このようなケースを検出することは重要かもしれませんが、敵対的攻撃を使用してインスタンスごとのレベルでモデルの脆弱性を評価することは計算負荷が高すぎるため、リアルタイムの展開シナリオには適していません。
入力空間マージンは、ロバストでないサンプルを検出するための正確なスコアであり、ディープ ニューラル ネットワークにとっては扱いにくいものです。
この論文では、脆弱なサンプルを効率的に検出するために、マージン一貫性の概念 (ロバスト モデルの入力空間マージンとロジット マージンをリンクする特性) を導入します。
まず、マージンの一貫性が、ロバストでないサンプルを識別するためのスコアとしてモデルのロジットマージンを使用するための必要十分条件であることを確立します。
次に、CIFAR10 および CIFAR100 データセットでロバストにトレーニングされたさまざまなモデルの包括的な経験的分析を通じて、入力空間マージンとロジットマージンの間に強い相関関係がある強いマージン一貫性を示すことを示します。
次に、ロジットマージンを効果的に使用して、そのようなモデルで脆弱な決定を確実に検出し、小さなサブセットのみで入力マージンを推定することにより、任意の大きなテストセットでロバストな精度を正確に推定できることを示します。
最後に、特徴表現から擬似マージンを学習することで、モデルのマージン一貫性が十分でないケースに対処します。
私たちの調査結果は、展開シナリオにおける敵対的な脆弱性を効率的に評価するために深い表現を活用する可能性を浮き彫りにしています。
要約(オリジナル)
Despite extensive research on adversarial training strategies to improve robustness, the decisions of even the most robust deep learning models can still be quite sensitive to imperceptible perturbations, creating serious risks when deploying them for high-stakes real-world applications. While detecting such cases may be critical, evaluating a model’s vulnerability at a per-instance level using adversarial attacks is computationally too intensive and unsuitable for real-time deployment scenarios. The input space margin is the exact score to detect non-robust samples and is intractable for deep neural networks. This paper introduces the concept of margin consistency — a property that links the input space margins and the logit margins in robust models — for efficient detection of vulnerable samples. First, we establish that margin consistency is a necessary and sufficient condition to use a model’s logit margin as a score for identifying non-robust samples. Next, through comprehensive empirical analysis of various robustly trained models on CIFAR10 and CIFAR100 datasets, we show that they indicate strong margin consistency with a strong correlation between their input space margins and the logit margins. Then, we show that we can effectively use the logit margin to confidently detect brittle decisions with such models and accurately estimate robust accuracy on an arbitrarily large test set by estimating the input margins only on a small subset. Finally, we address cases where the model is not sufficiently margin-consistent by learning a pseudo-margin from the feature representation. Our findings highlight the potential of leveraging deep representations to efficiently assess adversarial vulnerability in deployment scenarios.
arxiv情報
著者 | Jonas Ngnawé,Sabyasachi Sahoo,Yann Pequignot,Frédéric Precioso,Christian Gagné |
発行日 | 2024-06-26 16:00:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google