要約
DPO のデビュー以来、KL 制約付き RLHF 損失を介してターゲット LLM を人間の好みに合わせることが、特別な種類の報酬モデリング タスクと数学的に同等であることが示されてきました。
具体的には、このタスクでは、1) ターゲット LLM を使用して報酬モデルをパラメータ化すること、2) 真の報酬と 1:1 の線形関係を持つように報酬モデルを調整することが必要です。
ただし、重大な問題が判明しました。DPO 損失には複数のミニマイザーがあり、必要な線形性条件を満たすのはそのうちの 1 つだけである可能性があります。
この問題は、基礎となる Bradley-Terry 選好モデルのよく知られた問題から発生します。つまり、モデルには常に固有の最尤推定量 (MLE) があるとは限りません。
したがって、RLHF 損失の最小値は、DPO 損失の多数の最小値のうちの 1 つにすぎないため、達成できない可能性があります。
より良い代替案として、常に固有の MLE を持ち、本質的に線形性要件を満たすエネルギーベース モデル (EBM) を提案します。
実際に MLE を近似するために、Energy Preference Alignment (EPA) と呼ばれる対比損失を提案します。この損失では、各陽性サンプルが 1 つ以上の強い陰性サンプルおよび多くの自由な弱い陰性サンプルと対比されます。
EBM の理論的特性により、十分な数のネガが使用されると、EPA の近似誤差がほぼ確実に消滅します。
経験的に、EPA は DPO と比較してオープン ベンチマークで常に優れたパフォーマンスを提供することを実証し、それによって EBM の優位性を示しています。
要約(オリジナル)
Since the debut of DPO, it has been shown that aligning a target LLM with human preferences via the KL-constrained RLHF loss is mathematically equivalent to a special kind of reward modeling task. Concretely, the task requires: 1) using the target LLM to parameterize the reward model, and 2) tuning the reward model so that it has a 1:1 linear relationship with the true reward. However, we identify a significant issue: the DPO loss might have multiple minimizers, of which only one satisfies the required linearity condition. The problem arises from a well-known issue of the underlying Bradley-Terry preference model: it does not always have a unique maximum likelihood estimator (MLE). Consequently,the minimizer of the RLHF loss might be unattainable because it is merely one among many minimizers of the DPO loss. As a better alternative, we propose an energy-based model (EBM) that always has a unique MLE, inherently satisfying the linearity requirement. To approximate the MLE in practice, we propose a contrastive loss named Energy Preference Alignment (EPA), wherein each positive sample is contrasted against one or more strong negatives as well as many free weak negatives. Theoretical properties of our EBM enable the approximation error of EPA to almost surely vanish when a sufficient number of negatives are used. Empirically, we demonstrate that EPA consistently delivers better performance on open benchmarks compared to DPO, thereby showing the superiority of our EBM.
arxiv情報
著者 | Yuzhong Hong,Hanshan Zhang,Junwei Bao,Hongfei Jiang,Yang Song |
発行日 | 2024-12-18 13:55:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google