Adversarial Attacks and Defense for Conversation Entailment Task

要約

さまざまな NLP タスクで非常に強力であることが証明されている大規模言語モデル (LLM)。
ただし、非常に低コストでモデルを攻撃する方法はまだたくさんあります。
モデルをどう守るかが重要な問題となる。
私たちの研究では、敵対的攻撃の結果をモデルの新しい (目に見えない) ドメインとして扱い、防御の問題を新しいドメインでモデルの堅牢性を向上させる方法に組み立てます。
私たちは、会話含意のタスクに焦点を当てます。このタスクでは、マルチターンの自然言語対話が前提となっており、トランスフォーマー モデルは、特定の対話に関する特定の仮説が真であるか偽であるかを予測するために微調整されています。
敵対者は仮説を攻撃して、モデルをだまして間違った予測をさせる可能性があります。
攻撃手法としてシノニムスワッピングを適用します。
モデルの堅牢性を示すために、いくつかの微調整戦略を実装し、モデルの堅牢性を向上させる方法として埋め込み摂動損失を提案します。
最後に、現実世界での NLP における敵対的攻撃について議論することで、私たちの研究の重要性を示します。

要約(オリジナル)

Large language models (LLMs) that are proved to be very powerful on different NLP tasks. However, there are still many ways to attack the model with very low costs. How to defend the model becomes an important problem. In our work, we treat adversarial attack results as a new (unseen) domain of the model, and we frame the defending problem into how to improve the robustness of the model on the new domain. We focus on the task of conversation entailment, where multi-turn natural language dialogues are the premise, and the transformer model is fine-tuned to predict whether a given hypothesis about the given dialogue is true or false. The adversary would attack the hypothesis to fool the model to make the wrong predictions. We apply synonym-swapping as the attack method. To show the robustness of the model, we implement some fine-tuning strategies and propose the embedding perturbation loss as a method to improve the robustness of the model. Finally, we show the importance of our work by discussing the adversarial attacks in NLP in the real world.

arxiv情報

著者 Zhenning Yang,Ryan Krawec,Liang-Yuan Wu
発行日 2024-05-01 02:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク