Adversarial Attacks and Defense for Conversation Entailment Task

要約

重要なアプリケーションでの NLP システムの導入が増えるにつれて、敵対的な攻撃に対する大規模言語モデル (LLM) の堅牢性を確保することがますます重要になります。
大規模な言語モデルはさまざまな NLP タスクに優れていますが、低コストの敵対的攻撃に対しては脆弱なままです。
マルチターン対話が仮説を検証する前提として機能する会話含意の領域に焦点を当て、これらの仮説の真実性を正確に識別するために変換モデルを微調整します。
敵対者は、モデルを騙して誤った予測をさせることを目的として、同義語の交換を通じて仮説を操作します。
これらの攻撃に対抗するために、革新的な微調整技術を実装し、モデルの堅牢性を大幅に強化するために埋め込み摂動損失法を導入しました。
私たちの調査結果は、NLP における敵対的攻撃に対する防御の重要性を強調するだけでなく、現実世界への影響も強調しており、信頼性の高い NLP アプリケーションにはモデルの堅牢性を強化することが重要であることを示唆しています。

要約(オリジナル)

As the deployment of NLP systems in critical applications grows, ensuring the robustness of large language models (LLMs) against adversarial attacks becomes increasingly important. Large language models excel in various NLP tasks but remain vulnerable to low-cost adversarial attacks. Focusing on the domain of conversation entailment, where multi-turn dialogues serve as premises to verify hypotheses, we fine-tune a transformer model to accurately discern the truthfulness of these hypotheses. Adversaries manipulate hypotheses through synonym swapping, aiming to deceive the model into making incorrect predictions. To counteract these attacks, we implemented innovative fine-tuning techniques and introduced an embedding perturbation loss method to significantly bolster the model’s robustness. Our findings not only emphasize the importance of defending against adversarial attacks in NLP but also highlight the real-world implications, suggesting that enhancing model robustness is critical for reliable NLP applications.

arxiv情報

著者 Zhenning Yang,Ryan Krawec,Liang-Yuan Wu
発行日 2024-05-02 03:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク