Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

要約

人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるために現在最も広く使用されている方法です。
既存の RLHF 手法は、報酬ベースまたは報酬なしのいずれかに大別できます。
ChatGPT や Claude などの新しいアプリケーションは、最初に報酬モデルを学習し、近接ポリシー最適化 (PPO) などのアクタークリティカル アルゴリズムを適用する報酬ベースの手法を活用します。
ただし、学術的なベンチマークでは、Direct Preference Optimization (DPO) などの報酬を必要としない手法によって最先端の結果が得られることがよくあります。
DPO は本当に PPO より優れているのでしょうか?
これらのベンチマークで PPO のパフォーマンスが低いのはなぜですか?
この論文では、まず DPO のアルゴリズム特性に関する理論的研究と実証的研究の両方を実施し、DPO には根本的な制限がある可能性があることを示します。
さらに、PPO を包括的に調査し、LLM の微調整において PPO の最高のパフォーマンスを実現するための重要な要素も明らかにします。
最後に、対話からコード生成に至るまで、さまざまな RLHF テストベッドのコレクションにわたって DPO と PPO のベンチマークを行います。
実験結果は、PPO があらゆる場合において他のアライメント手法を上回り、困難なコード競争において最先端の結果を達成できることを示しています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is currently the most widely used method to align large language models (LLMs) with human preferences. Existing RLHF methods can be roughly categorized as either reward-based or reward-free. Novel applications such as ChatGPT and Claude leverage reward-based methods that first learn a reward model and apply actor-critic algorithms, such as Proximal Policy Optimization (PPO). However, in academic benchmarks, state-of-the-art results are often achieved via reward-free methods, such as Direct Preference Optimization (DPO). Is DPO truly superior to PPO? Why does PPO perform poorly on these benchmarks? In this paper, we first conduct both theoretical and empirical studies on the algorithmic properties of DPO and show that DPO may have fundamental limitations. Moreover, we also comprehensively examine PPO and reveal the key factors for the best performances of PPO in fine-tuning LLMs. Finally, we benchmark DPO and PPO across various a collection of RLHF testbeds, ranging from dialogue to code generation. Experiment results demonstrate that PPO is able to surpass other alignment methods in all cases and achieve state-of-the-art results in challenging code competitions.

arxiv情報

著者 Shusheng Xu,Wei Fu,Jiaxuan Gao,Wenjie Ye,Weilin Liu,Zhiyu Mei,Guangju Wang,Chao Yu,Yi Wu
発行日 2024-04-16 16:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク