REBEL: Reinforcement Learning via Regressing Relative Rewards

要約

プロキシマル・ポリシー最適化(PPO)は、元々は連続制御問題のために開発されたが、生成モデルの微調整を含む様々な強化学習(RL)アプリケーションの主力として登場した。残念なことに、PPOは安定した収束を可能にするために複数の発見的手法(バリューネットワーク、クリッピングなど)を必要とし、これらのコンポーネントの正確な実装に敏感であることで悪名高い。これに対し、我々は一歩引いて、生成モデルの時代のための最小限のRLアルゴリズムとはどのようなものかを問う。我々はREBELを提案する。REBELは、ポリシーの最適化の問題を、2つの完了の間の相対的な報酬をポリシーの観点からプロンプトに回帰することにきれいに還元するアルゴリズムであり、驚くほど軽量な実装を可能にする。理論的には、Natural Policy Gradientのような基本的なRLアルゴリズムがREBELの変種と見なせることを証明し、RL文献において収束性とサンプル複雑性の点で最も強い既知の理論的保証と一致することを可能にする。REBELはまた、オフラインデータをきれいに取り込むことができ、実際によく見られる非反対的選好を扱うように拡張することができる。経験的に、REBELは言語モデリングと画像生成の統一的なアプローチを提供し、PPOやDPOと同等かそれ以上の性能を持つ。Llama-3-8B-Instructを微調整することで、REBELはAlpacaEval 2.0、MT-Bench、Open LLM Leaderboardにおいて高い性能を達成しています。

要約(オリジナル)

While originally developed for continuous control problems, Proximal Policy Optimization (PPO) has emerged as the work-horse of a variety of reinforcement learning (RL) applications, including the fine-tuning of generative models. Unfortunately, PPO requires multiple heuristics to enable stable convergence (e.g. value networks, clipping), and is notorious for its sensitivity to the precise implementation of these components. In response, we take a step back and ask what a minimalist RL algorithm for the era of generative models would look like. We propose REBEL, an algorithm that cleanly reduces the problem of policy optimization to regressing the relative reward between two completions to a prompt in terms of the policy, enabling strikingly lightweight implementation. In theory, we prove that fundamental RL algorithms like Natural Policy Gradient can be seen as variants of REBEL, which allows us to match the strongest known theoretical guarantees in terms of convergence and sample complexity in the RL literature. REBEL can also cleanly incorporate offline data and be extended to handle the intransitive preferences we frequently see in practice. Empirically, we find that REBEL provides a unified approach to language modeling and image generation with stronger or similar performance as PPO and DPO, all while being simpler to implement and more computationally efficient than PPO. When fine-tuning Llama-3-8B-Instruct, REBEL achieves strong performance in AlpacaEval 2.0, MT-Bench, and Open LLM Leaderboard.

arxiv情報

著者 Zhaolin Gao,Jonathan D. Chang,Wenhao Zhan,Owen Oertell,Gokul Swamy,Kianté Brantley,Thorsten Joachims,J. Andrew Bagnell,Jason D. Lee,Wen Sun
発行日 2024-09-01 19:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク