要約
ロバスト性を向上させるための敵対的な学習戦略に関する広範な研究にもかかわらず、最もロバストなディープラーニングモデルの意思決定でさえ、知覚できない摂動に対して非常に敏感である可能性があり、大きなリスクを伴う実世界のアプリケーションに展開する際に深刻なリスクを生じさせます。このようなケースを検出することは重要かもしれませんが、敵対的攻撃を使用してインスタンス単位でモデルの脆弱性を評価することは、計算量が多すぎ、リアルタイムの展開シナリオには適していません。入力空間のマージンは、非ロバストサンプルを検出するための正確なスコアであり、ディープニューラルネットワークにとっては難解である。本稿では、脆弱なサンプルを効率的に検出するために、ロバストモデルにおける入力空間マージンとロジットマージンを結びつける性質であるマージン一貫性の概念を導入する。まず、ロバストでないサンプルを識別するためのスコアとしてモデルのロジットマージンを使用するために、マージンの一貫性が必要かつ十分な条件であることを確立する。次に、CIFAR10とCIFAR100データセット上で様々なロバストに訓練されたモデルの包括的な実証分析を通して、入力空間のマージンとロジットマージンの間に強い相関があり、マージンの一貫性が高いことを示す。次に、このようなモデルで脆い決定を検出するために、ロジットマージンを効果的かつ確信を持って使用できることを示す。最後に、特徴表現から擬似マージンを学習することで、モデルのマージン整合性が十分でない場合に対処する。我々の発見は、配備シナリオにおける敵対的な脆弱性を効率的に評価するために、深い表現を活用する可能性を強調するものである。
要約(オリジナル)
Despite extensive research on adversarial training strategies to improve robustness, the decisions of even the most robust deep learning models can still be quite sensitive to imperceptible perturbations, creating serious risks when deploying them for high-stakes real-world applications. While detecting such cases may be critical, evaluating a model’s vulnerability at a per-instance level using adversarial attacks is computationally too intensive and unsuitable for real-time deployment scenarios. The input space margin is the exact score to detect non-robust samples and is intractable for deep neural networks. This paper introduces the concept of margin consistency — a property that links the input space margins and the logit margins in robust models — for efficient detection of vulnerable samples. First, we establish that margin consistency is a necessary and sufficient condition to use a model’s logit margin as a score for identifying non-robust samples. Next, through comprehensive empirical analysis of various robustly trained models on CIFAR10 and CIFAR100 datasets, we show that they indicate high margin consistency with a strong correlation between their input space margins and the logit margins. Then, we show that we can effectively and confidently use the logit margin to detect brittle decisions with such models. Finally, we address cases where the model is not sufficiently margin-consistent by learning a pseudo-margin from the feature representation. Our findings highlight the potential of leveraging deep representations to assess adversarial vulnerability in deployment scenarios efficiently.
arxiv情報
著者 | Jonas Ngnawé,Sabyasachi Sahoo,Yann Pequignot,Frédéric Precioso,Christian Gagné |
発行日 | 2024-11-01 02:13:59+00:00 |
arxivサイト | arxiv_id(pdf) |