Learning to Ignore Adversarial Attacks

要約

現在の NLP モデルは強力なパフォーマンスを発揮しますが、敵対的な攻撃に対して脆弱になる可能性があります。
敵対的な入力に対する効果的な学習を可能にするために、攻撃トークンを無視することを明示的に学習できる理論的根拠モデルの使用を導入します。
理論的根拠モデルは、攻撃トークンの 90% 以上をうまく無視できることがわかりました。
このアプローチは、BERT と RoBERTa の両方の 3 つのデータセットのロバスト性において、ベースライン モデルよりも一貫してかなりの改善 ($\sim$10%) をもたらし、また、敵対的な例だけでデータ拡張よりも確実に優れています。
多くの場合、私たちの方法は、クリーンなテスト セットと攻撃されたテスト セットでのモデル パフォーマンス間のギャップを埋めることができるため、敵対的攻撃の影響を減らすことができます。

要約(オリジナル)

Despite the strong performance of current NLP models, they can be brittle against adversarial attacks. To enable effective learning against adversarial inputs, we introduce the use of rationale models that can explicitly learn to ignore attack tokens. We find that the rationale models can successfully ignore over 90% of attack tokens. This approach leads to consistent sizable improvements ($\sim$10%) over baseline models in robustness on three datasets for both BERT and RoBERTa, and also reliably outperforms data augmentation with adversarial examples alone. In many cases, we find that our method is able to close the gap between model performance on a clean test set and an attacked test set and hence reduce the effect of adversarial attacks.

arxiv情報

著者 Yiming Zhang,Yangqiaoyu Zhou,Samuel Carton,Chenhao Tan
発行日 2023-02-20 19:00:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク