要約
Direct Preference Optimization (DPO) は、ペアごとのプリファレンス データ (通常、ユーザー プロンプトごとに 1 つの選択された応答と拒否された応答のペア) を活用して、LLM を人間のプリファレンスに合わせる効果的な手法です。
実際には、特定のプロンプトに対して、相互に品質が異なる複数の応答が存在する可能性があります。
複数の回答に対するこのような品質評価が利用できるため、これらの回答を利用して、特定のプロンプトに対して複数の好みのペアを作成することを提案します。
私たちの研究は、カリキュラム学習方法論を介した DPO トレーニングで、構築された複数の優先順位のペアを体系的に使用することに焦点を当てています。
特に、これらの複数の好みデータのペアを、さまざまな基準に従って、簡単なものから難しいもの (カリキュラム トレーニングをエミュレート) に順序付けします。
私たちが提案するアプローチと標準のシングルペア DPO 設定との詳細な比較を示します。
Curry-DPO と呼ばれる私たちの方法は、MTbench、Vicuna、WizardLM、および UltraFeedback テスト セットで一貫してパフォーマンスの向上を示し、その有効性を強調しています。
より具体的には、Curry-DPO は、Zephy-7B モデルの MT ベンチで 7.43 のスコアを達成し、同様のパラメーター サイズを持つ既存の LLM の大部分を上回っています。
また、Curry-DPO は、実験において Vicuna、WizardLM、UltraFeedback テスト データセットで最も高い調整勝率 (それぞれ 90.7%、87.1%、87.9%) を達成し、標準の DPO 手法と比較した場合、最大 7.5% という顕著な向上を示しました。
アライメントに使用される設定ペアは、https://huggingface.co/datasets/ServiceNow-AI/Curriculum_DPO_preferences でリリースされます。
要約(オリジナル)
Direct Preference Optimization (DPO) is an effective technique that leverages pairwise preference data (usually one chosen and rejected response pair per user prompt) to align LLMs to human preferences. In practice, multiple responses can exist for a given prompt with varying quality relative to each other. With availability of such quality ratings for multiple responses, we propose utilizing these responses to create multiple preference pairs for a given prompt. Our work focuses on systematically using the constructed multiple preference pair in DPO training via curriculum learning methodology. In particular, we order these multiple pairs of preference data from easy to hard (emulating curriculum training) according to various criteria. We show detailed comparisons of our proposed approach to the standard single-pair DPO setting. Our method, which we call Curry-DPO consistently shows increased performance gains on MTbench, Vicuna, WizardLM, and the UltraFeedback test set, highlighting its effectiveness. More specifically, Curry-DPO achieves a score of 7.43 on MT-bench with Zephy-7B model outperforming majority of existing LLMs with similar parameter size. Curry-DPO also achieves the highest adjusted win rates on Vicuna, WizardLM, and UltraFeedback test datasets (90.7%, 87.1%, and 87.9% respectively) in our experiments, with notable gains of upto 7.5% when compared to standard DPO technique. We release the preference pairs used in alignment at: https://huggingface.co/datasets/ServiceNow-AI/Curriculum_DPO_preferences
arxiv情報
| 著者 | Pulkit Pattnaik,Rishabh Maheshwary,Kelechi Ogueji,Vikas Yadav,Sathwik Tejaswi Madhusudhan |
| 発行日 | 2024-11-08 08:55:00+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google