要約
Direct Preference Optimization (DPO) は、人間のフィードバックによる強化学習 (RLHF) フェーズで広く利用されており、大規模言語モデル (LLM) を人間の好みに合わせて調整し、その無害性と有効性の両方を強化します。
ただし、DPO は冗長性を重視して過剰に最適化する傾向があり、パフォーマンスとユーザー エクスペリエンスの両方に悪影響を与える可能性があることが観察されています。
この論文では、DPO の最適化目標について詳細な理論分析を実施し、その暗黙的な報酬とデータ長の間に強い相関関係があることを明らかにします。
この相関関係により最適化の方向性が誤ってしまい、その結果、DPO トレーニング中に長さに敏感になり、冗長性が生じます。
この問題に対処するために、我々は LD-DPO と呼ばれる、DPO の長さの感度を下げる改善方法を提案します。
提案された方法は、比較的重要ではない明示的な長さの優先順位を他の暗黙の優先順位から切り離すことにより、DPO をデータ長に鈍感化し、それによって本質的な優先順位のより効果的な学習を可能にすることを目的としています。
MT-Bench や AlpacaEval 2 を含むさまざまなベンチマークでの実験検証には、Llama2-13B、Llama3-8B、Qwen2-7B の 2 つの設定 (Base と Instruct) を利用しました。実験結果は、LD-DPO が DPO や他のベースラインよりも一貫して優れていることを示しています。
メソッドを使用すると、DPO と比較して長さを 10 ~ 40% 短縮して、より簡潔な応答を実現できます。
私たちは詳細な実験解析を実施し、LD-DPO が実際に長さの感度を低下させ、モデルを人間の実際の好みにより近づけることができることを実証しました。
要約(オリジナル)
Direct Preference Optimization (DPO) is widely utilized in the Reinforcement Learning from Human Feedback (RLHF) phase to align Large Language Models (LLMs) with human preferences, thereby enhancing both their harmlessness and efficacy. However, it has been observed that DPO tends to over-optimize for verbosity, which can detrimentally affect both performance and user experience. In this paper, we conduct an in-depth theoretical analysis of DPO’s optimization objective and reveal a strong correlation between its implicit reward and data length. This correlation misguides the optimization direction, resulting in length sensitivity during the DPO training and leading to verbosity. To address this issue, we propose a length-desensitization improvement method for DPO, termed LD-DPO. The proposed method aims to desensitize DPO to data length by decoupling explicit length preference, which is relatively insignificant, from the other implicit preferences, thereby enabling more effective learning of the intrinsic preferences. We utilized two settings (Base and Instruct) of Llama2-13B, Llama3-8B, and Qwen2-7B for experimental validation on various benchmarks including MT-Bench and AlpacaEval 2. The experimental results indicate that LD-DPO consistently outperforms DPO and other baseline methods, achieving more concise responses with a 10-40\% reduction in length compared to DPO. We conducted in-depth experimental analyses to demonstrate that LD-DPO can indeed achieve length desensitization and align the model more closely with human-real preferences.
arxiv情報
著者 | Wei Liu,Yang Bai,Chengcheng Han,Rongxiang Weng,Jun Xu,Xuezhi Cao,Jingang Wang,Xunliang Cai |
発行日 | 2024-09-10 10:49:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google