New Desiderata for Direct Preference Optimization

要約

これまでの大規模な言語モデルは通常、モデルの応答を人間の好みに合わせて調整するために、何らかの形式のヒューマン フィードバックを伴う強化学習 (RLHF) に依存していました。
ただし、これらの RLHF パイプラインの実装時に不安定性が頻繁に観察されるため、RL 報酬モデルを個別に学習する必要性を回避するために、さまざまな再パラメーター化手法が最近導入されました。
代わりに、人間の好みに合わせた直接の微調整は、単一の閉じた形式のトレーニング目標の最小化によって実現されます。このプロセスは、当初は直接好みの最適化 (DPO) と呼ばれ、その後、いくつかの注目すべき子孫が続きます。
特定の現実世界の設定では効果的ですが、事前トレーニングされた参照モデルと人間の好みの経験的尺度の間を補間する既存の DPO 手法の能力における未解決の欠点、および避けられないトレードオフを強調するのに役立つ新しい評価基準を導入します。
低品質および高品質の応答がどのように正規化され、制約が処理されるか。
私たちの洞察は、これらの制限を明らかに軽減する代替の DPO のような損失を動機付けます。
経験的な結果は、私たちの分析の注目すべき側面を裏付けるのに役立ちます。

要約(オリジナル)

Large language models in the past have typically relied on some form of reinforcement learning with human feedback (RLHF) to better align model responses with human preferences. However, because of oft-observed instabilities when implementing these RLHF pipelines, various reparameterization techniques have recently been introduced to sidestep the need for separately learning an RL reward model. Instead, directly fine-tuning for human preferences is achieved via the minimization of a single closed-form training objective, a process originally referred to as direct preference optimization (DPO) and followed by several notable descendants. Although effective in certain real-world settings, we introduce new evaluation criteria that serve to highlight unresolved shortcomings in the ability of existing DPO methods to interpolate between a pre-trained reference model and empirical measures of human preferences, as well as unavoidable trade-offs in how low- and high-quality responses are regularized and constraints are handled. Our insights then motivate an alternative DPO-like loss that provably mitigates these limitations. Empirical results serve to corroborate notable aspects of our analyses.

arxiv情報

著者 Xiangkun Hu,Tong He,David Wipf
発行日 2024-07-12 07:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク