RoAST: Robustifying Language Models via Adversarial Perturbation with Selective Training

要約

事前トレーニング済み言語モデル (LM) の微調整は、多くの NLP タスクの事実上の標準になっています。
それにもかかわらず、微調整された LM は依然として、敵対的な堅牢性やモデルのキャリブレーションなどの堅牢性の問題が発生する傾向があります。
LM の堅牢性に関するいくつかの観点が個別に研究されていますが、複数の観点で統一された考慮が欠けています。
この論文では、統合された方法で LM の多視点ロバスト性を強化するためのシンプルかつ効果的な微調整手法である、選択トレーニングによる敵対的摂動によるロバスト化 LM (RoAST) を提案します。
RoAST には、モデルの堅牢性に関する 2 つの重要なソース、摂動入力に対する堅牢性、および事前トレーニングされた LM の一般化可能な知識が効果的に組み込まれています。
具体的には、RoAST は微調整中に敵対的な摂動を導入し、不必要な偏差を最小限に抑えるためにモデル パラメーターが相対的な重要性に応じて選択的に更新されます。
モデルの堅牢性に関する 4 つの代表的な観点を組み込んだ微調整された LM の統合評価の下で、6 つの異なるタイプの LM に対する最先端の微調整手法と比較した RoAST の有効性を実証し、実際の有用性を示しています。

要約(オリジナル)

Fine-tuning pre-trained language models (LMs) has become the de facto standard in many NLP tasks. Nevertheless, fine-tuned LMs are still prone to robustness issues, such as adversarial robustness and model calibration. Several perspectives of robustness for LMs have been studied independently, but lacking a unified consideration in multiple perspectives. In this paper, we propose Robustifying LMs via Adversarial perturbation with Selective Training (RoAST), a simple yet effective fine-tuning technique to enhance the multi-perspective robustness of LMs in a unified way. RoAST effectively incorporates two important sources for the model robustness, robustness on the perturbed inputs and generalizable knowledge in pre-trained LMs. To be specific, RoAST introduces adversarial perturbation during fine-tuning while the model parameters are selectively updated upon their relative importance to minimize unnecessary deviation. Under a unified evaluation of fine-tuned LMs by incorporating four representative perspectives of model robustness, we demonstrate the effectiveness of RoAST compared to state-of-the-art fine-tuning methods on six different types of LMs, which indicates its usefulness in practice.

arxiv情報

著者 Jaehyung Kim,Yuning Mao,Rui Hou,Hanchao Yu,Davis Liang,Pascale Fung,Qifan Wang,Fuli Feng,Lifu Huang,Madian Khabsa
発行日 2023-12-07 04:23:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク