Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model

要約

大規模言語モデル (LLM) は、自然言語を処理および生成できるため、ますます人気が高まっています。
ただし、LLM は大量のテキスト データセットでトレーニングされるため、有害なバイアスを受け継ぎ、人間の価値観と一致しない出力を生成する可能性があります。
この論文では、LLM アライメントに対する 2 つの主なアプローチ、つまりヒューマン フィードバックによる強化学習 (RLHF) と、直接優先最適化 (DPO) のような対照学習ベースの手法について研究します。
RLHF と DPO の安定性と堅牢性を分析することにより、両方のアプローチの弱点を軽減する新しい方法である MPO (Mixed Preference Optimization) を提案します。
具体的には、2 段階のトレーニング手順を提案します。最初に簡単なデータセットで DPO をトレーニングし、次に参照モデルである DPO モデルを使用して難しいセットで RLHF を実行します。
ここで、簡単なセットと難しいセットは、応答ペアを報酬のギャップが大きいもの (簡単) とギャップが小さいもの (難しい) に分割する、よく訓練された報酬モデルによって構築されます。
第 1 段階では相対的に最適なポリシー (LLM) モデルを迅速に取得できますが、第 2 段階ではオンライン RLHF を使用して LLM を改良し、DPO に関連する配布シフトの問題を軽減します。
実験は 2 つの公開アライメント データセット、つまり HH-RLHF と TLDR で実施され、GPT4 と人間による評価の両方の観点から MPO の有効性が実証されています。

要約(オリジナル)

Large Language Models (LLMs) have become increasingly popular due to their ability to process and generate natural language. However, as they are trained on massive datasets of text, LLMs can inherit harmful biases and produce outputs that are not aligned with human values. This paper studies two main approaches to LLM alignment: Reinforcement Learning with Human Feedback (RLHF) and contrastive learning-based methods like Direct Preference Optimization (DPO). By analyzing the stability and robustness of RLHF and DPO, we propose MPO (Mixed Preference Optimization), a novel method that mitigates the weaknesses of both approaches. Specifically, we propose a two-stage training procedure: first train DPO on an easy dataset, and then perform RLHF on a difficult set with DPO model being the reference model. Here, the easy and difficult sets are constructed by a well-trained reward model that splits response pairs into those with large gaps of reward (easy), and those with small gaps (difficult). The first stage allows us to obtain a relatively optimal policy (LLM) model quickly, whereas the second stage refines LLM with online RLHF, thus mitigating the distribution shift issue associated with DPO. Experiments are conducted on two public alignment datasets, namely HH-RLHF and TLDR, demonstrating the effectiveness of MPO, both in terms of GPT4 and human evaluation.

arxiv情報

著者 Qi Gou,Cam-Tu Nguyen
発行日 2024-03-28 14:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク