要約
好み学習は、言語モデルを人間の価値観に合わせるための重要なテクノロジーです。
ヒューマン フィードバックからの強化学習 (RLHF) は、嗜好学習を最適化するモデルベースのアルゴリズムです。最初に嗜好スコアの報酬モデルを適合させ、次に、報酬を最大化するためにオンポリシー PPO アルゴリズムを使用してポリシーの生成を最適化します。
RLHF の処理は複雑で時間がかかり、不安定です。
Direct Preference Optimization (DPO) アルゴリズムは、オフポリシー アルゴリズムを使用してポリシーの生成を直接最適化し、データ効率と安定性を高める報酬モデルの必要性を排除します。
DPO は Bradley-Terry モデルと対数損失を使用します。これにより、選好が決定的である場合に KL 正則化項を無視するという犠牲を払って選好データへの過剰適合が生じます。
IPO は、ルート探索 MSE 損失を使用して、無視される KL 正則化の問題を解決します。
この論文では、優先度が決定的である場合、IPO は問題を解決しますが、優先度分布のサポートが参照分布と等しくないため、DPO と IPO の両方が KL 正則化項に失敗することを明らかにします。
次に、重要度サンプリングの観点からシンプルで直感的なオフポリシー優先最適化アルゴリズム (MPO) を設計し、KL 正則化を真に効果的なものにするオフポリシー KL 正則化項を追加します。
MPO の目的は RLHF の目的と類似しており、IPO と同様に、MPO はポリシーから外れています。
したがって、MPO は両方の長所を実現します。
学習プロセスを簡素化し、メモリ使用量を節約するために、MPO では報酬モデルと参照ポリシーの両方が不要になります。
要約(オリジナル)
Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference is deterministic. IPO uses a root-finding MSE loss to solve the ignoring KL-regularization problem. In this paper, we’ll figure out, although IPO fix the problem when preference is deterministic, but both DPO and IPO fails the KL-regularization term because the support of preference distribution not equal to reference distribution. Then, we design a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO), and add off-policy KL-regularization terms which makes KL-regularization truly effective. The objective of MPO bears resemblance to RLHF’s objective, and likes IPO, MPO is off-policy. So, MPO attains the best of both worlds. To simplify the learning process and save memory usage, MPO eliminates the needs for both reward model and reference policy.
arxiv情報
著者 | Zaifan Jiang,Xing Huang,Chao Wei |
発行日 | 2024-01-08 14:30:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google