DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization


敵対的トレーニングは、深層言語モデルの堅牢性を向上させる上で最も効果的な方法の 1 つです。
これらの問題に対処するために、クリーン データのみを使用した敵対的トレーニングの代わりに、新しく効果的な手順を導入します。
私たちの手順である分布シフト リスク最小化 (DSRM) は、入力データの埋め込みではなく確率分布を乱すことによって敵対的損失を推定します。
私たちのアプローチでは、トレーニングに敵対的サンプルは必要なく、現在最もパフォーマンスの高い敵対的トレーニング方法と比較して、消費時間を最大 70% 削減します。
実験では、DSRM によってテキストによる敵対的攻撃に対する BERT の耐性が大幅に向上し、さまざまなベンチマークで最先端の堅牢な精度が達成されることが実証されています。


Adversarial training is one of the best-performing methods in improving the robustness of deep language models. However, robust models come at the cost of high time consumption, as they require multi-step gradient ascents or word substitutions to obtain adversarial samples. In addition, these generated samples are deficient in grammatical quality and semantic consistency, which impairs the effectiveness of adversarial training. To address these problems, we introduce a novel, effective procedure for instead adversarial training with only clean data. Our procedure, distribution shift risk minimization (DSRM), estimates the adversarial loss by perturbing the input data’s probability distribution rather than their embeddings. This formulation results in a robust model that minimizes the expected global loss under adversarial attacks. Our approach requires zero adversarial samples for training and reduces time consumption by up to 70\% compared to current best-performing adversarial training methods. Experiments demonstrate that DSRM considerably improves BERT’s resistance to textual adversarial attacks and achieves state-of-the-art robust accuracy on various benchmarks.


著者 Songyang Gao,Shihan Dou,Yan Liu,Xiao Wang,Qi Zhang,Zhongyu Wei,Jin Ma,Ying Shan
発行日 2023-06-27 02:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク