DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization

要約

敵対的トレーニングは、深層言語モデルの堅牢性を向上させる上で最も効果的な方法の 1 つです。
ただし、敵対的なサンプルを取得するには、複数ステップの勾配上昇または単語置換が必要なため、堅牢なモデルには多大な時間の消費が伴います。
さらに、これらの生成されたサンプルは文法的な品質と意味の一貫性に欠けており、敵対的トレーニングの有効性が損なわれます。
これらの問題に対処するために、クリーン データのみを使用した敵対的トレーニングの代わりに、新しく効果的な手順を導入します。
私たちの手順である分布シフト リスク最小化 (DSRM) は、入力データの埋め込みではなく確率分布を乱すことによって敵対的損失を推定します。
この定式化により、敵対的な攻撃の下で予想される全体的な損失を最小限に抑える堅牢なモデルが得られます。
私たちのアプローチでは、トレーニングに敵対的サンプルは必要なく、現在最もパフォーマンスの高い敵対的トレーニング方法と比較して、消費時間を最大 70% 削減します。
実験では、DSRM によってテキストによる敵対的攻撃に対する BERT の耐性が大幅に向上し、さまざまなベンチマークで最先端の堅牢な精度が達成されることが実証されています。

要約(オリジナル)

Adversarial training is one of the best-performing methods in improving the robustness of deep language models. However, robust models come at the cost of high time consumption, as they require multi-step gradient ascents or word substitutions to obtain adversarial samples. In addition, these generated samples are deficient in grammatical quality and semantic consistency, which impairs the effectiveness of adversarial training. To address these problems, we introduce a novel, effective procedure for instead adversarial training with only clean data. Our procedure, distribution shift risk minimization (DSRM), estimates the adversarial loss by perturbing the input data’s probability distribution rather than their embeddings. This formulation results in a robust model that minimizes the expected global loss under adversarial attacks. Our approach requires zero adversarial samples for training and reduces time consumption by up to 70\% compared to current best-performing adversarial training methods. Experiments demonstrate that DSRM considerably improves BERT’s resistance to textual adversarial attacks and achieves state-of-the-art robust accuracy on various benchmarks.

arxiv情報

著者 Songyang Gao,Shihan Dou,Yan Liu,Xiao Wang,Qi Zhang,Zhongyu Wei,Jin Ma,Ying Shan
発行日 2023-06-27 02:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク