要約
大規模な言語モデル(LLM)を人間の好みに合わせて整理することは、実際の展開には重要ですが、RLHFなどの既存の方法は計算および安定性の課題に直面しています。
DPOは単一のハイパーパラメーター$ \ beta $を含むオフラインパラダイムを確立しますが、Simpoなどのその後の方法は、デュアルパラメーター($ \ beta $、$ \ gamma $)を介して複雑さを再導入します。
2つの進歩を介して$ \ beta $を排除する合理化されたアルゴリズムである{reluベースの優先最適化(レポ)}を提案します。
理論的には、レポはSimpoの制限ケース($ \ beta \ to \ infty $)として特徴付けられます。ここで、ロジスティック重み付けはバイナリのしきい値に崩壊し、0-1損失の凸エンベロープを形成します。
Alpacaeval 2およびArena-Hardの経験的結果は、複数のベースモデルでDPOとSIMPOを上回ることを示していることを示しています。
要約(オリジナル)
Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter $\beta$, subsequent methods like SimPO reintroduce complexity through dual parameters ($\beta$, $\gamma$). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates $\beta$ via two advances: (1) retaining SimPO’s reference-free margins but removing $\beta$ through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO’s limiting case ($\beta \to \infty$), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.
arxiv情報
著者 | Junkang Wu,Kexin Huang,Xue Wang,Jinyang Gao,Bolin Ding,Jiancan Wu,Xiangnan He,Xiang Wang |
発行日 | 2025-03-10 15:11:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google