要約
直接選好最適化(DPO)は、監督された方法で人間の好みを整合するための標準的な手法となっています。
その経験的な成功にもかかわらず、その対数比率の報酬パラメーター化の背後にある理論的正当化は不完全なままです。
この作業では、差別的な情報分布(DID)を利用することにより、このギャップに対処します。ポリシーの更新中に得られた情報をキャプチャするトークンシーケンス上の分布。
まず、優先ラベルが参照ポリシーをターゲットポリシーに変換するために必要な微分情報をエンコードすると、DPOのログ比報酬が優先最適化を介してターゲットポリシーを学習するためのユニークな最適な形式として浮上することを示します。
この結果は、当然、拒否された応答よりも最適なサンプリング分布のために閉じた式式をもたらします。
第二に、差分情報をエンコードする選好の条件は、ログマージン順序のポリシーに関する暗黙の仮定に基本的にリンクされていることがわかります。
最後に、DIDのエントロピーを分析することにより、低エントロピーの微分情報を学習することでポリシーの分布がどのように強化され、高エントロピーの微分情報がスムージング効果を誘発する方法を特徴付けます。
合成実験における理論的発見を検証し、それらを実際の指導に従うデータセットに拡張します。
我々の結果は、低エントロピーの微分情報を学習する一方で、一般的な指導の公開には、高エントロピーの差別的情報を学ぶことが知識集約的な質問の回答に役立つことを学ぶことが重要であることを示唆しています。
全体として、私たちの研究は、DPOの目的、優先データの構造、および結果として生じる差別的情報のレンズを通じて発生する政策行動に関する統一された視点を提示します。
要約(オリジナル)
Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.
arxiv情報
著者 | Yunjae Won,Hyunji Lee,Hyeonbin Hwang,Minjoon Seo |
発行日 | 2025-05-29 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google