要約
大規模言語モデル (LLM) が人間の意図や好みに対応できるようにするには、調整トレーニングが不可欠です。
通常、これは、指示に従う調整と人間の好みの調整という、異なる目的を持つ 2 つの段階に基づいて実行されます。
ただし、LLM をこれらの目的に順番に合わせると、固有の問題が発生します。目的が矛盾する可能性があり、LLM が命令や人間の好みに同時に適合することを保証できません。
これらに対応するために、この研究では、交互のアライメントと修正された弾性ウェイト統合方法に基づいたハイブリッド アライメント トレーニング (Hbat) アプローチを提案します。
基本的なアイデアは、アライメント トレーニング中に異なる目標を交互に実行することで、2 つのアライメント タスク間でより良いコラボレーションを実現できるようにすることです。私たちは、要約タスクと対話タスクについて Hbat を試しています。
実験結果は、提案された \textsc{Hbat} がすべてのベースラインを大幅に上回る可能性があることを示しています。
特に、Hbat は、近接ポリシーの最適化と直接優先の最適化の両方を使用する場合、従来の 2 段階のアライメント トレーニングに比べて一貫したパフォーマンスの向上をもたらします。
要約(オリジナル)
Alignment training is crucial for enabling large language models (LLMs) to cater to human intentions and preferences. It is typically performed based on two stages with different objectives: instruction-following alignment and human-preference alignment. However, aligning LLMs with these objectives in sequence suffers from an inherent problem: the objectives may conflict, and the LLMs cannot guarantee to simultaneously align with the instructions and human preferences well. To response to these, in this work, we propose a Hybrid Alignment Training (Hbat) approach, based on alternating alignment and modified elastic weight consolidation methods. The basic idea is to alternate between different objectives during alignment training, so that better collaboration can be achieved between the two alignment tasks.We experiment with Hbat on summarization and dialogue tasks. Experimental results show that the proposed \textsc{Hbat} can significantly outperform all baselines. Notably, Hbat yields consistent performance gains over the traditional two-stage alignment training when using both proximal policy optimization and direct preference optimization.
arxiv情報
著者 | Chenglong Wang,Hang Zhou,Kaiyan Chang,Bei Li,Yongyu Mu,Tong Xiao,Tongran Liu,Jingbo Zhu |
発行日 | 2024-06-21 14:23:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google