RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models

要約

大規模な言語モデルをユーザーの意図に合わせて調整するために、ヒューマン フィードバックからの強化学習 (RLHF) が広く採用されてきました。
ただし、近接ポリシー最適化 (PPO) ベースの RLHF は不安定な場合があり、大幅なハイパーパラメーターの微調整が必​​要となり、調整中に推定報酬を最大化するには計算コストが高くなります。
最近、これらの課題に対処するために、直接優先最適化 (DPO) が提案されています。
ただし、DPO はポリシー モデルではなく、ヒューマン アノテーターと代替 LLM から生成される対照的な応答に依存しているため、RLHF の有効性が制限されます。
このペーパーでは、リジェクション サンプリング (RS) と DPO を体系的に組み合わせることで、両方の課題に対処します。
私たちが提案する手法 RS-DPO は、教師あり微調整ポリシー モデル (SFT) の開発から始まります。
プロンプトごとに k 個の応答のさまざまなセットが SFT モデルから直接サンプリングされます。
RS-DPO は、報酬分布に基づいて対照的なサンプルのペアを識別します。
最後に、対照的なサンプルを使用して DPO を適用して、モデルを人間の好みに合わせます。
私たちの実験は、私たちが提案した方法が限られたリソース環境でLLMを効果的に微調整し、ユーザーの意図との整合性の向上につながることを示しています。
さらに、RS、PPO、DPO などの既存の方法よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has been extensively employed to align large language models with user intent. However, proximal policy optimization (PPO) based RLHF is occasionally unstable requiring significant hyperparameter finetuning, and computationally expensive to maximize the estimated reward during alignment. Recently, direct preference optimization (DPO) is proposed to address those challenges. However, DPO relies on contrastive responses generated from human annotator and alternative LLM, instead of the policy model, limiting the effectiveness of the RLHF. In this paper, we addresses both challenges by systematically combining rejection sampling (RS) and DPO. Our proposed method, RS-DPO, initiates with the development of a supervised fine-tuned policy model (SFT). A varied set of k responses per prompt are sampled directly from the SFT model. RS-DPO identifies pairs of contrastive samples based on their reward distribution. Finally, we apply DPO with the contrastive samples to align the model to human preference. Our experiments indicate that our proposed method effectively fine-tunes LLMs with limited resource environments, leading to improved alignment with user intent. Furthermore, it outperforms existing methods, including RS, PPO, and DPO.

arxiv情報

著者 Saeed Khaki,JinJin Li,Lan Ma,Liu Yang,Prathap Ramachandra
発行日 2024-03-30 16:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク