WPO: Enhancing RLHF with Weighted Preference Optimization

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の価値観により近づけるための有望なソリューションです。
他のモデルから優先データを取得するオフポリシー優先最適化は、コスト効率とスケーラビリティにより広く採用されています。
ただし、ポリシー外の優先順位の最適化では、データ収集に使用されるポリシーとターゲット ポリシーの間の分布ギャップが問題となり、最適化が不十分になることがよくあります。
この論文では、オフポリシー優先データを使用してオンポリシー学習をシミュレートすることで、この問題を軽減する新しい戦略を提案します。
当社の Weighted Preference Optimization (WPO) 手法は、現在のポリシーに基づく確率に応じてプリファレンス ペアの重み付けを変更することで、ポリシー外のデータをポリシー上のデータにより近づけることで適応させます。
この方法は、分布ギャップの問題に対処するだけでなく、追加コストを発生させることなく最適化プロセスを強化します。
Alpaca Eval 2 や MT ベンチなどのベンチマークに従って、指示に関するメソッドを検証します。
WPO は、Alpaca Eval 2 で Direct Preference Optimization (DPO) を最大 5.6% 上回っているだけでなく、Llama-3-8B-Instruct に基づいて GPT-4-turbo に対して 48.6% という驚くべき長さ制御勝率を確立しています。
リーダーボードで最も強い8Bモデル。
コードとモデルは https://github.com/wzhouad/WPO でリリースされます。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) is a promising solution to align large language models (LLMs) more closely with human values. Off-policy preference optimization, where the preference data is obtained from other models, is widely adopted due to its cost efficiency and scalability. However, off-policy preference optimization often suffers from a distributional gap between the policy used for data collection and the target policy, leading to suboptimal optimization. In this paper, we propose a novel strategy to mitigate this problem by simulating on-policy learning with off-policy preference data. Our Weighted Preference Optimization (WPO) method adapts off-policy data to resemble on-policy data more closely by reweighting preference pairs according to their probability under the current policy. This method not only addresses the distributional gap problem but also enhances the optimization process without incurring additional costs. We validate our method on instruction following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2 but also establishes a remarkable length-controlled winning rate against GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B model on the leaderboard. We will release the code and models at https://github.com/wzhouad/WPO.

arxiv情報

著者 Wenxuan Zhou,Ravi Agrawal,Shujian Zhang,Sathish Reddy Indurthi,Sanqiang Zhao,Kaiqiang Song,Silei Xu,Chenguang Zhu
発行日 2024-06-17 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク