Filtered Direct Preference Optimization

要約

人間のフィードバックからの強化学習 (RLHF) は、言語モデルを人間の好みに合わせる上で重要な役割を果たします。
データセットの品質の重要性は一般に認識されていますが、RLHF フレームワーク内でのその影響に関する明確な調査は、私たちの知る限りでは限られています。
この論文では、報酬モデルを必要としない RLHF 手法としてますます採用されつつある Direct Preference Optimization (DPO) に焦点を当て、嗜好データセット内のテキスト品質の問題を取り上げます。
テキストの品質は、報酬モデルベースの RLHF で最適化されたモデルよりも、DPO で最適化されたモデルのパフォーマンスに大きく影響することを確認しています。
この新しい洞察に基づいて、フィルタリングされた直接優先最適化 (fDPO) と呼ばれる DPO の拡張を提案します。
fDPO は、トレーニングされた報酬モデルを使用して、DPO トレーニング中に嗜好データセット内のテキストの品質を監視します。
最適化されているモデルによって生成されたテキストとの比較に基づいて、低品質のサンプルが破棄され、より正確なデータセットが得られます。
実験結果は、fDPO が最終モデルのパフォーマンスを向上させることを示しています。
私たちのコードは https://github.com/Cyber​​AgentAILab/filtered-dpo で入手できます。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) plays a crucial role in aligning language models with human preferences. While the significance of dataset quality is generally recognized, explicit investigations into its impact within the RLHF framework, to our knowledge, have been limited. This paper addresses the issue of text quality within the preference dataset by focusing on Direct Preference Optimization (DPO), an increasingly adopted reward-model-free RLHF method. We confirm that text quality significantly influences the performance of models optimized with DPO more than those optimized with reward-model-based RLHF. Building on this new insight, we propose an extension of DPO, termed filtered direct preference optimization (fDPO). fDPO uses a trained reward model to monitor the quality of texts within the preference dataset during DPO training. Samples of lower quality are discarded based on comparisons with texts generated by the model being optimized, resulting in a more accurate dataset. Experimental results demonstrate that fDPO enhances the final model performance. Our code is available at https://github.com/CyberAgentAILab/filtered-dpo.

arxiv情報

著者 Tetsuro Morimura,Mitsuki Sakamoto,Yuu Jinnai,Kenshi Abe,Kaito Ariu
発行日 2024-04-23 11:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク