Preference as Reward, Maximum Preference Optimization with Importance Sampling

要約

好み学習は、言語モデルを人間の価値観に合わせるための重要なテクノロジーです。
ヒューマン フィードバックからの強化学習 (RLHF) は、嗜好学習を最適化するモデルベースのアルゴリズムです。最初に嗜好スコアの報酬モデルを適合させ、次に、報酬を最大化するためにオンポリシー PPO アルゴリズムを使用してポリシーの生成を最適化します。
RLHF の処理は複雑で時間がかかり、不安定です。
Direct Preference Optimization (DPO) アルゴリズムは、オフポリシー アルゴリズムを使用してポリシーの生成を直接最適化し、データ効率と安定性を高める報酬モデルの必要性を排除します。
DPO は Bradley-Terry モデルと対数損失を使用します。これにより、選好が決定的である場合に KL 正則化項を無視するという犠牲を払って選好データへの過剰適合が生じます。
IPO は、ルート探索 MSE 損失を使用して、無視される KL 正則化の問題を解決します。
この論文では、優先度が決定的である場合、IPO は問題を解決しますが、優先度分布のサポートが参照分布と等しくないため、DPO と IPO の両方が KL 正則化項に失敗することを明らかにします。
次に、重要度サンプリングの観点からシンプルで直感的なオフポリシー優先最適化アルゴリズム (MPO) を設計し、KL 正則化を真に効果的なものにするオフポリシー KL 正則化項を追加します。
MPO の目的は RLHF の目的と類似しており、IPO と同様に、MPO はポリシーから外れています。
したがって、MPO は両方の長所を実現します。
学習プロセスを簡素化し、メモリ使用量を節約するために、MPO では報酬モデルと参照ポリシーの両方が不要になります。

要約(オリジナル)

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference is deterministic. IPO uses a root-finding MSE loss to solve the ignoring KL-regularization problem. In this paper, we’ll figure out, although IPO fix the problem when preference is deterministic, but both DPO and IPO fails the KL-regularization term because the support of preference distribution not equal to reference distribution. Then, we design a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO), and add off-policy KL-regularization terms which makes KL-regularization truly effective. The objective of MPO bears resemblance to RLHF’s objective, and likes IPO, MPO is off-policy. So, MPO attains the best of both worlds. To simplify the learning process and save memory usage, MPO eliminates the needs for both reward model and reference policy.

arxiv情報

著者 Zaifan Jiang,Xing Huang,Chao Wei
発行日 2024-01-08 14:30:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク