要約
好み学習は、言語モデルを人間の価値観に合わせるための重要なテクノロジーです。
ヒューマン フィードバックからの強化学習 (RLHF) は、嗜好学習を最適化するモデルベースのアルゴリズムです。最初に嗜好スコアの報酬モデルを適合させ、次に、ポリシーに基づく PPO アルゴリズムを使用して生成ポリシーを最適化し、報酬を最大化します。
RLHF の処理は複雑で時間がかかり、不安定です。
Direct Preference Optimization (DPO) アルゴリズムは、オフポリシー アルゴリズムを使用して生成ポリシーを直接最適化し、報酬モデルの必要性を排除します。
DPO はデータ効率が高く、安定しています。
ただし、DPO には、選好データに過剰適合し、選好が決定的である場合に KL 正則化項を無視するという欠点があります。
ID マッピング Preference Optimization (IPO) は、ルート探索 MSE 損失を使用して KL 正則化を組み込みます。
ただし、優先分布のサポートが参照分布と等しくないため、DPO と IPO はどちらも KL 正則化項に適切に対処できません。
この論文では、重要度サンプリングの観点から、シンプルで直感的なオフポリシー優先最適化アルゴリズムを提案します。これを最大優先最適化 (MPO) と呼びます。
MPO にはオフポリシーの KL 正則化用語が組み込まれており、正則化が真に効果的になります。
MPO は、オフポリシー アルゴリズムでありながら、RLHF と IPO の目的を組み合わせることで、両方の長所を実現します。
さらに、MPO では報酬モデルと参照ポリシーが不要になるため、学習プロセスが簡素化され、メモリ使用量が削減されます。
要約(オリジナル)
Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model-based algorithm to optimize preference learning, which first fits a reward model for preference scores and then optimizes the generating policy with an on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming, and unstable. The Direct Preference Optimization (DPO) algorithm uses an off-policy algorithm to directly optimize the generating policy and eliminates the need for a reward model. DPO is more data-efficient and stable. However, DPO has a drawback of overfitting to the preference data and ignoring the KL-regularization term when the preference is deterministic. Identity mapping Preference Optimization(IPO) uses a root-finding MSE loss to incorporate KL-regularization. However, both DPO and IPO fail to properly address the KL-regularization term because the support of the preference distribution is not equal to the reference distribution. In this paper, we propose a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO). MPO incorporates the off-policy KL-regularization term, making regularization truly effective. MPO achieves the best of both worlds by combining the objectives of RLHF and IPO while being an off-policy algorithm. Furthermore, MPO eliminates the need for a reward model and reference policy, simplifying the learning process and reducing memory usage.
arxiv情報
著者 | Zaifan Jiang,Xing Huang,Chao Wei |
発行日 | 2024-03-25 06:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google