Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment

要約

ディープ ニューラル ネットワーク (DNN) はさまざまなビジュアル タスクにおいて大きな進歩を遂げていますが、依然として敵対的な例に対して脆弱性があり、深刻なセキュリティ上の懸念につながっています。
最近の敵対的トレーニング技術では、逆敵対的攻撃を利用して信頼度の高い例を生成し、敵対的例の分布を対応するクラスの信頼度の高い領域と一致させることを目的としています。
しかし、この論文では、私たちの調査により、逆敵対的攻撃の下での信頼性の高い出力は、偏った機能のアクティブ化と相関していることが明らかになりました。
具体的には、逆敵対的な例を使用してトレーニングすると、モデルの注意が背景の特徴に移り、偽の相関バイアスが導入されます。
このバイアスに対処するために、我々は、敵対的例のロジットを逆敵対例から得られたバイアスを除いた高信頼性ロジットと整合させるだけでなく、モデルの注意を通常の状態に戻す新しいアプローチである、バイアスを除去した高信頼性敵対トレーニング (DHAT) を提案します。
前景ロジットの直交性を強化することで状態を改善します。
広範な実験により、DHAT が最先端のパフォーマンスを実現し、さまざまな視覚データセットにわたって堅牢な一般化機能を発揮することが実証されています。
さらに、DHAT は、パフォーマンスを向上させるために、既存の高度な敵対的トレーニング手法とシームレスに統合できます。

要約(オリジナル)

Despite the significant advances that deep neural networks (DNNs) have achieved in various visual tasks, they still exhibit vulnerability to adversarial examples, leading to serious security concerns. Recent adversarial training techniques have utilized inverse adversarial attacks to generate high-confidence examples, aiming to align the distributions of adversarial examples with the high-confidence regions of their corresponding classes. However, in this paper, our investigation reveals that high-confidence outputs under inverse adversarial attacks are correlated with biased feature activation. Specifically, training with inverse adversarial examples causes the model’s attention to shift towards background features, introducing a spurious correlation bias. To address this bias, we propose Debiased High-Confidence Adversarial Training (DHAT), a novel approach that not only aligns the logits of adversarial examples with debiased high-confidence logits obtained from inverse adversarial examples, but also restores the model’s attention to its normal state by enhancing foreground logit orthogonality. Extensive experiments demonstrate that DHAT achieves state-of-the-art performance and exhibits robust generalization capabilities across various vision datasets. Additionally, DHAT can seamlessly integrate with existing advanced adversarial training techniques for improving the performance.

arxiv情報

著者 Kejia Zhang,Juanjuan Weng,Zhiming Luo,Shaozi Li
発行日 2024-08-12 11:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク