SimPO: Simple Preference Optimization with a Reference-Free Reward

要約

Direct Preference Optimization (DPO) は、簡素化とトレーニングの安定性を高めるために、ヒューマン フィードバックからの強化学習 (RLHF) の報酬関数を再パラメータ化する、広く使用されているオフラインの選好最適化アルゴリズムです。
この研究では、よりシンプルでありながらより効果的なアプローチである SimPO を提案します。
SimPO の有効性は、シーケンスの平均対数確率を暗黙的な報酬として使用するという重要な設計に起因しています。
この報酬の定式化はモデル生成とより適切に連携し、参照モデルの必要性を排除し、コンピューティングとメモリの効率を高めます。
さらに、Bradley-Terry 目標に目標報酬マージンを導入して、勝者応答と敗者応答間のマージンを大きくすることを奨励し、アルゴリズムのパフォーマンスをさらに向上させます。
SimPO と DPO、およびその最新のバリアントを、基本モデルとミストラルや Llama3 などの命令調整モデルの両方を含む、さまざまな最先端のトレーニング設定にわたって比較します。
私たちは、AlpacaEval 2、MT-Bench、そして最近の難しい Arena-Hard ベンチマークなど、広範な指示に従ってベンチマークを評価しました。
私たちの結果は、SimPO が応答長を大幅に増加させることなく、既存のアプローチを一貫して大幅に上回るパフォーマンスを示していることを示しています。
具体的には、SimPO は AlpacaEval 2 で最大 6.4 ポイント、Arena-Hard で最大 7.5 ポイント DPO を上回っています。
Llama3-8B-Instruct に基づいて構築された当社の最高パフォーマンスのモデルは、AlpacaEval 2 で長さ制御された勝率 44.7 という驚くべき成績を達成し、リーダーボードで Claude 3 Opus を上回り、Arena-Hard での勝率 33.8 を上回りました。
最強の8Bオープンソースモデル。

要約(オリジナル)

Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further enhancing the algorithm’s performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models like Mistral and Llama3. We evaluated on extensive instruction-following benchmarks, including AlpacaEval 2, MT-Bench, and the recent challenging Arena-Hard benchmark. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Llama3-8B-Instruct, achieves a remarkable 44.7 length-controlled win rate on AlpacaEval 2 — surpassing Claude 3 Opus on the leaderboard, and a 33.8 win rate on Arena-Hard — making it the strongest 8B open-source model.

arxiv情報

著者 Yu Meng,Mengzhou Xia,Danqi Chen
発行日 2024-05-23 16:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク