SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks

要約

言語モデル (LM) は自然言語処理タスクに不可欠なツールですが、敵対的攻撃に対する脆弱性が依然として懸念されています。
現在の研究では敵対的トレーニング手法が研究されていますが、単語レベルの攻撃を防御するための改良は限られています。
この研究では、LM の堅牢性を強化するためのマクロ敵対的トレーニング戦略である Semantic Robust Defense (SemRoDe) と呼ばれる新しいアプローチを提案します。
画像領域における最近の研究からインスピレーションを得て、言語などの離散データ設定において、単語置換によって生成された敵対的サンプルが実際に基本ドメインから高いワッサーシュタイン距離を示す敵対的ドメインに属していることを調査し、後に確認しました。
私たちの方法は、これら 2 つのドメインを橋渡しする堅牢な表現を学習します。
私たちは、サンプルが敵対的なドメインに投影されるのではなく、シフトが最小限のドメインに投影される場合、攻撃の堅牢性が向上するだろうと仮説を立てています。
新しい距離ベースの目標を組み込むことで、ドメインを調整します。
これにより、モデルの高レベルの出力特徴を調整することで、モデルはより一般化された表現を学習できるようになり、目に見えない敵対的なサンプルをより適切に処理できるようになります。
この方法は、語彙レベルと単語置換レベルの両方で最小限の重複を共有する場合でも、単語埋め込み全体で一般化できます。
私たちのアプローチの有効性を評価するために、3 つのデータセットで BERT モデルと RoBERTa モデルの実験を実施します。
結果は、有望な最先端の堅牢性を示しています。

要約(オリジナル)

Language models (LMs) are indispensable tools for natural language processing tasks, but their vulnerability to adversarial attacks remains a concern. While current research has explored adversarial training techniques, their improvements to defend against word-level attacks have been limited. In this work, we propose a novel approach called Semantic Robust Defence (SemRoDe), a Macro Adversarial Training strategy to enhance the robustness of LMs. Drawing inspiration from recent studies in the image domain, we investigate and later confirm that in a discrete data setting such as language, adversarial samples generated via word substitutions do indeed belong to an adversarial domain exhibiting a high Wasserstein distance from the base domain. Our method learns a robust representation that bridges these two domains. We hypothesize that if samples were not projected into an adversarial domain, but instead to a domain with minimal shift, it would improve attack robustness. We align the domains by incorporating a new distance-based objective. With this, our model is able to learn more generalized representations by aligning the model’s high-level output features and therefore better handling unseen adversarial samples. This method can be generalized across word embeddings, even when they share minimal overlap at both vocabulary and word-substitution levels. To evaluate the effectiveness of our approach, we conduct experiments on BERT and RoBERTa models on three datasets. The results demonstrate promising state-of-the-art robustness.

arxiv情報

著者 Brian Formento,Wenjie Feng,Chuan Sheng Foo,Luu Anh Tuan,See-Kiong Ng
発行日 2024-03-27 10:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク