On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

要約

人間のフィードバックからの強化学習 (RLHF) は、言語モデルを人間の好みに合わせるための効果的なアプローチです。
RLHF の中心となるのは、人間の好みをスコア化するための報酬関数を学習することです。
報酬モデルを学習するための 2 つの主なアプローチは、1) RLHF と同様に明示的報酬モデル (EXRM) をトレーニングすること、および 2) 直接嗜好最適化 (DPO) などの方法を通じて嗜好データから学習した暗黙的報酬を使用することです。
これまでの研究では、DPO の暗黙的報酬モデル (DPORM と表記) が制限内の EXRM に近似できることが示されています。
DPORM の有効性は、学習されたポリシーの最適性を直接意味し、反復 DPO を含む LLM アライメント手法にも実用的な意味を持ちます。
ただし、経験的に DPORM が EXRM のパフォーマンスとどの程度一致するかは不明です。
この研究では、DPORM と EXRM の両方について、優先回答と拒否回答を区別する精度を研究しています。
私たちの調査結果は、DPORM がトレーニング データセットに同等に適合しているにもかかわらず、特に検証データセットに分布のシフトが含まれている場合、EXRM よりも一般化の効果が低いことを示しています。
5 つの配布外設定全体で、DPORM の精度の平均低下は 3%、最大低下は 7% でした。
これらの発見は、DPORM の一般化能力が限られており、反復的な DPO アプローチにおける明示的な報酬モデルの統合を実証していることを強調しています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is an effective approach for aligning language models to human preferences. Central to RLHF is learning a reward function for scoring human preferences. Two main approaches for learning a reward model are 1) training an EXplicit Reward Model (EXRM) as in RLHF, and 2) using an implicit reward learned from preference data through methods such as Direct Preference Optimization (DPO). Prior work has shown that the implicit reward model of DPO (denoted as DPORM) can approximate an EXRM in the limit. DPORM’s effectiveness directly implies the optimality of the learned policy, and also has practical implication for LLM alignment methods including iterative DPO. However, it is unclear how well DPORM empirically matches the performance of EXRM. This work studies the accuracy at distinguishing preferred and rejected answers for both DPORM and EXRM. Our findings indicate that even though DPORM fits the training dataset comparably, it generalizes less effectively than EXRM, especially when the validation datasets contain distribution shifts. Across five out-of-distribution settings, DPORM has a mean drop in accuracy of 3% and a maximum drop of 7%. These findings highlight that DPORM has limited generalization ability and substantiates the integration of an explicit reward model in iterative DPO approaches.

arxiv情報

著者 Yong Lin,Skyler Seto,Maartje ter Hoeve,Katherine Metcalf,Barry-John Theobald,Xuan Wang,Yizhe Zhang,Chen Huang,Tong Zhang
発行日 2024-09-05 16:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク