Extreme Miscalibration and the Illusion of Adversarial Robustness

要約

深層学習ベースの自然言語処理 (NLP) モデルは敵対的な攻撃に対して脆弱であり、小さな摂動によりモデルが誤分類される可能性があります。
敵対的トレーニング (AT) は、モデルの堅牢性を高めるためによく使用されます。
しかし、私たちは興味深い現象を発見しました。それは、意図的または偶発的にモデルを誤って調整すると、敵対的な攻撃の探索方法を妨げる形で勾配をマスクし、明らかに堅牢性が向上するというものです。
我々は、この観測された堅牢性の向上が堅牢性の錯覚 (IOR) であることを示し、敵対者がさまざまな形式のテスト時の温度校正を実行して前述の干渉を無効化し、敵対的攻撃が敵対的な例を見つけられるようにする方法を示します。
したがって、NLP コミュニティに対して、観測されたゲインが本物であることを確認するために、テスト時の温度スケーリングをロバスト性評価に組み込むことを強く推奨します。
最後に、\textit{トレーニング}中に温度をスケーリングして真の堅牢性を向上させる方法を示します。

要約(オリジナル)

Deep learning-based Natural Language Processing (NLP) models are vulnerable to adversarial attacks, where small perturbations can cause a model to misclassify. Adversarial Training (AT) is often used to increase model robustness. However, we have discovered an intriguing phenomenon: deliberately or accidentally miscalibrating models masks gradients in a way that interferes with adversarial attack search methods, giving rise to an apparent increase in robustness. We show that this observed gain in robustness is an illusion of robustness (IOR), and demonstrate how an adversary can perform various forms of test-time temperature calibration to nullify the aforementioned interference and allow the adversarial attack to find adversarial examples. Hence, we urge the NLP community to incorporate test-time temperature scaling into their robustness evaluations to ensure that any observed gains are genuine. Finally, we show how the temperature can be scaled during \textit{training} to improve genuine robustness.

arxiv情報

著者 Vyas Raina,Samson Tan,Volkan Cevher,Aditya Rawal,Sheng Zha,George Karypis
発行日 2024-02-27 13:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク