Length-Controlled Margin-Based Preference Optimization without Reference Model

要約

直接選好最適化(DPO)は、報酬機能を再定義することでトレーニングのシンプルさと安定性を改善するために設計された、人間のフィードバック(RLHF)からの選好ベースの強化学習のために広く採用されているオフラインアルゴリズムです。
ただし、DPOは、長さのバイアス、メモリの非効率性、確率分解など、いくつかの制限によって妨げられています。
これらの課題に対処するために、より効率的で堅牢な代替手段である長さ制御されたマージンベースの優先順位最適化(LMPO)を提案します。
LMPOは、DPO損失の上限として均一な参照モデルを導入し、元の最適化目標のより正確な近似を可能にします。
さらに、トレーニング段階と推論段階の不一致を最小限に抑えるために、平均的なログ確率最適化戦略が採用されています。
LMPOの重要な革新は、ブラッドリーテリーフレームワークに統合された、長さ制御されたマージンベースの損失関数にあります。
この損失関数は応答長を調節し、同時に優先出力と拒否された出力の間のマージンを拡大します。
そうすることで、既存の方法の大きな制限に対処する、受け入れられた応答と廃棄された応答の両方の確率分解を軽減します。
6つの条件付きベンチマークで、2つのオープンエンドの大手言語モデル、MistralとLlama3の最先端の優先最適化技術に対してLMPOを評価します。
実験結果は、LMPOが応答長を効果的に制御し、確率の低下を減らし、既存のアプローチを上回ることを示しています。
このコードは、https://github.com/gengxuli/lmpoで入手できます。

要約(オリジナル)

Direct Preference Optimization (DPO) is a widely adopted offline algorithm for preference-based reinforcement learning from human feedback (RLHF), designed to improve training simplicity and stability by redefining reward functions. However, DPO is hindered by several limitations, including length bias, memory inefficiency, and probability degradation. To address these challenges, we propose Length-Controlled Margin-Based Preference Optimization (LMPO), a more efficient and robust alternative. LMPO introduces a uniform reference model as an upper bound for the DPO loss, enabling a more accurate approximation of the original optimization objective. Additionally, an average log-probability optimization strategy is employed to minimize discrepancies between training and inference phases. A key innovation of LMPO lies in its Length-Controlled Margin-Based loss function, integrated within the Bradley-Terry framework. This loss function regulates response length while simultaneously widening the margin between preferred and rejected outputs. By doing so, it mitigates probability degradation for both accepted and discarded responses, addressing a significant limitation of existing methods. We evaluate LMPO against state-of-the-art preference optimization techniques on two open-ended large language models, Mistral and LLaMA3, across six conditional benchmarks. Our experimental results demonstrate that LMPO effectively controls response length, reduces probability degradation, and outperforms existing approaches. The code is available at https://github.com/gengxuli/LMPO.

arxiv情報

著者 Gengxu Li,Tingyu Xia,Yi Chang,Yuan Wu
発行日 2025-05-29 17:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク