要約
大規模な言語モデル(LLM)の訓練後、人間のフィードバック(RLHF)からの強化学習は、人間の好みに合わせた生成を達成するための効果的なアプローチです。
直接選好最適化(DPO)により、報酬モデルなしでは、単純なバイナリ交差エントロピー損失を備えたポリシートレーニングが可能になります。
DPOの目的は、参照ポリシーへのモードを求めるフィッティングを促進する逆KLの発散によって正規化されます。
それにもかかわらず、逆KLの発散を最小化すると、参照分布のモードをキャプチャできない可能性があることを示しています。これにより、ポリシーのパフォーマンスが損なわれる可能性があります。
この観察に基づいて、DPO、H-DPOへの単純な変更を提案します。これにより、結果として生じるポリシーのエントロピーを制御し、分布のシャープネスを強化し、モードを求めるフィッティングをより効果的に可能にします。
実験では、H-DPOがさまざまなタスクでDPOを上回っていることを示し、数学タスクのパス@$ K $評価で優れた結果を示しています。
さらに、H-DPOは簡単に実装でき、DPOの損失計算を軽微な変更のみが必要であるため、LLMSのトレーニングにおける幅広いアプリケーションに非常に実用的で有望です。
要約(オリジナル)
In the post-training of large language models (LLMs), Reinforcement Learning from Human Feedback (RLHF) is an effective approach to achieve generation aligned with human preferences. Direct Preference Optimization (DPO) allows for policy training with a simple binary cross-entropy loss without a reward model. The objective of DPO is regularized by reverse KL divergence that encourages mode-seeking fitting to the reference policy. Nonetheless, we indicate that minimizing reverse KL divergence could fail to capture a mode of the reference distribution, which may hurt the policy’s performance. Based on this observation, we propose a simple modification to DPO, H-DPO, which allows for control over the entropy of the resulting policy, enhancing the distribution’s sharpness and thereby enabling mode-seeking fitting more effectively. In our experiments, we show that H-DPO outperformed DPO across various tasks, demonstrating superior results in pass@$k$ evaluations for mathematical tasks. Moreover, H-DPO is simple to implement, requiring only minor modifications to the loss calculation of DPO, which makes it highly practical and promising for wide-ranging applications in the training of LLMs.
arxiv情報
著者 | Motoki Omura,Yasuhiro Fujita,Toshiki Kataoka |
発行日 | 2025-06-13 12:47:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google