On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

要約

人間のフィードバックからの強化学習(RLHF)は、言語モデルを人間の嗜好に合わせるための効果的なアプローチである。RLHFの中心は、人間の嗜好をスコアリングするための報酬関数を学習することである。報酬モデルを学習する2つの主なアプローチは、1)RLHFのようにEXplicit Reward Model(EXRM)を学習する方法と、2)Direct Preference Optimization(DPO)のような方法で嗜好データから学習した暗黙の報酬を使用する方法である。先行研究により、DPOの暗黙的報酬モデル(DPORMと呼ぶ)は極限においてEXRMを近似できることが示されている。DPORMの有効性は学習されたポリシーの最適性を直接意味し、また反復DPOを含むLLMアライメント手法に実用的な示唆を与える。しかし、DPORMがEXRMの性能と経験的にどの程度一致するかは不明である。本研究では、DPORMとEXRMの両方について、好ましい解答と拒否された解答を区別する精度を研究する。我々の発見は、DPORMが訓練データセットに同等に適合しているにもかかわらず、特に検証データセットに分布シフトが含まれる場合、EXRMよりも効果的に汎化されないことを示している。5つの分布ずれの設定において、DPORMは平均3%、最大7%の精度低下を示した。これらの知見は、DPORMの汎化能力が限定的であることを強調し、反復DPOアプローチに明示的報酬モデルを統合することを立証するものである。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is an effective approach for aligning language models to human preferences. Central to RLHF is learning a reward function for scoring human preferences. Two main approaches for learning a reward model are 1) training an EXplicit Reward Model (EXRM) as in RLHF, and 2) using an implicit reward learned from preference data through methods such as Direct Preference Optimization (DPO). Prior work has shown that the implicit reward model of DPO (denoted as DPORM) can approximate an EXRM in the limit. DPORM’s effectiveness directly implies the optimality of the learned policy, and also has practical implication for LLM alignment methods including iterative DPO. However, it is unclear how well DPORM empirically matches the performance of EXRM. This work studies the accuracy at distinguishing preferred and rejected answers for both DPORM and EXRM. Our findings indicate that even though DPORM fits the training dataset comparably, it generalizes less effectively than EXRM, especially when the validation datasets contain distribution shifts. Across five out-of-distribution settings, DPORM has a mean drop in accuracy of 3% and a maximum drop of 7%. These findings highlight that DPORM has limited generalization ability and substantiates the integration of an explicit reward model in iterative DPO approaches.

arxiv情報

著者 Yong Lin,Skyler Seto,Maartje ter Hoeve,Katherine Metcalf,Barry-John Theobald,Xuan Wang,Yizhe Zhang,Chen Huang,Tong Zhang
発行日 2024-10-03 17:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク