Preference as Reward, Maximum Preference Optimization with Importance Sampling

要約

嗜好学習は、言語モデルを人間の価値観に合わせるための重要な技術である。人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback: RLHF)は、嗜好学習を最適化するためのモデルベースのアルゴリズムであり、まず嗜好スコアに対する報酬モデルを当てはめ、次に報酬を最大化するためにオンポリシーPPOアルゴリズムを用いて生成ポリシーを最適化する。RLHFの処理は複雑で、時間がかかり、不安定である。直接選好最適化(DPO)アルゴリズムは、オフポリシーアルゴリズムを用いて生成ポリシーを直接最適化し、報酬モデルを不要にすることで、データ効率と安定性を実現する。DPOはBradley-Terryモデルとlog-lossを用いるが、これは嗜好が決定論に近い場合、KL正則化項を無視する代償として、嗜好データに過剰にフィットすることになる。IPOは、KL正則化の無視問題を解決するために、ルート探索のペアワイズMSE損失を使用し、最適なポリシーを学習する。しかし、IPOのペアワイズ損失はまだKL正則化を機能させることができない。本論文では、重要度サンプリングの観点から、シンプルで直感的なオフポリシー選好最適化アルゴリズムを設計し、KL正則化を真に有効にするオフポリシーKL正則化項を追加する。学習プロセスを単純化し、メモリ使用量を節約するために、正則化データを事前に生成することで、最適化の段階で報酬モデルと参照ポリシーの両方が不要になる。

要約(オリジナル)

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference near deterministic. IPO uses a root-finding pairwise MSE loss to solve the ignoring KL-regularization problem, and learning an optimal policy. But IPO’s pairwise loss still can’t s make the KL-regularization to work. In this paper, we design a simple and intuitive off-policy preferences optimization algorithm from an importance sampling view, and add an off-policy KL-regularization term which makes KL-regularization truly effective. To simplify the learning process and save memory usage, we can generate regularization data in advance, which eliminate the needs for both reward model and reference policy in the stage of optimization.

arxiv情報

著者 Zaifan Jiang,Xing Huang,Chao Wei
発行日 2024-01-04 07:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク