Improving the Robustness of Large Language Models via Consistency Alignment

要約

大規模言語モデル (LLM) は、ユーザーの指示に従い、役立つ応答を生成することに大きな成功を収めています。
それにもかかわらず、言語化された指示のわずかな変更により、著しく一貫性のない応答が生成される可能性があるため、その堅牢性は依然として最適とは程遠いです。
最近の文献ではこの不一致の問題が調査されており、応答生成の堅牢性を継続的に改善することの重要性が強調されています。
しかし、体系的な分析と解決策はまだ不足しています。
この論文では、不一致の問題を定量的に定義し、命令拡張による教師あり微調整と一貫性調整トレーニングからなる 2 段階のトレーニング フレームワークを提案します。
最初の段階では、同様の命令拡張を介してモデルが命令に従うことを一般化するのに役立ちます。
第 2 段階では、類似した応答の微妙な違いを区別することで、多様性を改善し、どの応答が人間の期待とより一致しているかをモデルが理解できるようにします。
トレーニング プロセスは、外部の人間の好みのリソースを参照することなく、第 1 段階でトレーニングされたモデルから推測される自己報酬によって達成されます。
私たちは、最近公開された LLM で指示に従うタスクについて広範な実験を実施し、トレーニング フレームワークの有効性を実証します。

要約(オリジナル)

Large language models (LLMs) have shown tremendous success in following user instructions and generating helpful responses. Nevertheless, their robustness is still far from optimal, as they may generate significantly inconsistent responses due to minor changes in the verbalized instructions. Recent literature has explored this inconsistency issue, highlighting the importance of continued improvement in the robustness of response generation. However, systematic analysis and solutions are still lacking. In this paper, we quantitatively define the inconsistency problem and propose a two-stage training framework consisting of instruction-augmented supervised fine-tuning and consistency alignment training. The first stage helps a model generalize on following instructions via similar instruction augmentations. In the second stage, we improve the diversity and help the model understand which responses are more aligned with human expectations by differentiating subtle differences in similar responses. The training process is accomplished by self-rewards inferred from the trained model at the first stage without referring to external human preference resources. We conduct extensive experiments on recent publicly available LLMs on instruction-following tasks and demonstrate the effectiveness of our training framework.

arxiv情報

著者 Yukun Zhao,Lingyong Yan,Weiwei Sun,Guoliang Xing,Shuaiqiang Wang,Chong Meng,Zhicong Cheng,Zhaochun Ren,Dawei Yin
発行日 2024-03-22 12:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク