要約
人間のフィードバックからの強化学習(RLHF)は、言語モデルを人間の嗜好に合わせる上で重要な役割を果たす。データセット品質の重要性は一般的に認識されているが、RLHFフレームワークにおけるその影響に関する明確な調査は、我々の知る限り限られている。本稿では、報酬モデルを用いないRLHF手法として採用されつつある直接選好最適化(DPO)に注目することで、選好データセットにおけるテキストの質の問題を扱う。我々は、テキストの質が、報酬モデルに基づくRLHFで最適化されたモデルよりも、DPOで最適化されたモデルの性能に大きく影響することを確認した。この新しい洞察に基づき、我々はDPOの拡張を提案し、filtered direct preference optimization (fDPO)と呼ぶ。最適化されたモデルによって生成されたテキストとの比較に基づいて、質の低いサンプルは破棄され、より正確なデータセットが得られる。実験結果は、fDPOが最終的なモデルの性能を向上させることを示している。我々のコードはhttps://github.com/CyberAgentAILab/filtered-dpo。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) plays a crucial role in aligning language models with human preferences. While the significance of dataset quality is generally recognized, explicit investigations into its impact within the RLHF framework, to our knowledge, have been limited. This paper addresses the issue of text quality within the preference dataset by focusing on direct preference optimization (DPO), an increasingly adopted reward-model-free RLHF method. We confirm that text quality significantly influences the performance of models optimized with DPO more than those optimized with reward-model-based RLHF. Building on this new insight, we propose an extension of DPO, termed filtered direct preference optimization (fDPO). fDPO uses a trained reward model to monitor the quality of texts within the preference dataset during DPO training. Samples of lower quality are discarded based on comparisons with texts generated by the model being optimized, resulting in a more accurate dataset. Experimental results demonstrate that fDPO enhances the final model performance. Our code is available at https://github.com/CyberAgentAILab/filtered-dpo.
arxiv情報
著者 | Tetsuro Morimura,Mitsuki Sakamoto,Yuu Jinnai,Kenshi Abe,Kaito Ariu |
発行日 | 2024-12-03 17:22:01+00:00 |
arxivサイト | arxiv_id(pdf) |