RePO: ReLU-based Preference Optimization

要約

大規模な言語モデル(LLM)を人間の好みに合わせて整理することは、実際の展開には重要ですが、RLHFなどの既存の方法は計算および安定性の課題に直面しています。
DPOは単一のハイパーパラメーター$ \ beta $を含むオフラインパラダイムを確立しますが、Simpoなどのその後の方法は、デュアルパラメーター($ \ beta $、$ \ gamma $)を介して複雑さを再導入します。
2つの進歩を介して$ \ beta $を排除する合理化されたアルゴリズムである{reluベースの優先最適化(レポ)}を提案します。
理論的には、レポはSimpoの制限ケース($ \ beta \ to \ infty $)として特徴付けられます。ここで、ロジスティック重み付けはバイナリのしきい値に崩壊し、0-1損失の凸エンベロープを形成します。
Alpacaeval 2およびArena-Hardの経験的結果は、複数のベースモデルでDPOとSIMPOを上回ることを示していることを示しています。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter $\beta$, subsequent methods like SimPO reintroduce complexity through dual parameters ($\beta$, $\gamma$). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates $\beta$ via two advances: (1) retaining SimPO’s reference-free margins but removing $\beta$ through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO’s limiting case ($\beta \to \infty$), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

arxiv情報

著者 Junkang Wu,Kexin Huang,Xue Wang,Jinyang Gao,Bolin Ding,Jiancan Wu,Xiangnan He,Xiang Wang
発行日 2025-03-10 15:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク