要約
直接選好最適化(DPO)とそのバリアントは、言語モデルを人間の好みに合わせてますます一般的になっています。
これらの方法は、選択された(または好み)と拒否(または拒否された)応答をよりよく区別するためのモデルを教えることを目的としています。
しかし、以前の研究では、選択された応答の確率がトレーニング中にしばしば減少することを確認しており、この現象は尤度変位として知られています。
この課題に取り組むために、この作業では、選択した確率の分布を制御できるように\ Methodを導入します。
次に、理論的分析と実験的検証の両方でサポートされているように、\メソッドが選択された確率を改善することと報酬マージンを犠牲にすることとの根本的なトレードオフを示すことを示します。
さらに、MTベンチや設計されたWINレート実験などの下流タスクでのDPOに対する\メソッドの優位性を示します。
この研究は、DPOの尤度変位の問題が、単純な理論的に根拠のあるソリューションで効果的に緩和できることを示していると考えています。
私たちのコードは、https://github.com/meaquadddd/dpo-shiftで入手できます。
要約(オリジナル)
Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.
arxiv情報
著者 | Xiliang Yang,Feng Jiang,Qianen Zhang,Lei Zhao,Xiao Li |
発行日 | 2025-02-11 14:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google