Direct Preference Optimization: Your Language Model is Secretly a Reward Model

要約

大規模な教師なし言語モデル (LM) は、広範な世界の知識といくつかの推論スキルを学習しますが、トレーニングが完全に教師なしであるため、動作を正確に制御することは困難です。
このようなステアビリティを獲得するための既存の方法では、モデル生成の相対的な品質に関する人間によるラベルを収集し、多くの場合人間のフィードバックからの強化学習 (RLHF) を使用して、これらの好みに合わせて教師なし LM を微調整します。
ただし、RLHF は複雑で多くの場合不安定な手順であり、最初に人間の好みを反映する報酬モデルをフィッティングし、次に強化学習を使用して大規模な教師なし LM を微調整して、元のモデルから大きく逸脱することなくこの推定報酬を最大化します。
この論文では、RLHF の報酬モデルの新しいパラメータ化を導入します。これにより、対応する最適なポリシーを閉じた形式で抽出できるようになり、単純な分類損失だけで標準的な RLHF 問題を解決できるようになります。
結果として得られるアルゴリズムは、Direct Preference Optimization (DPO) と呼ばれるもので、安定しており、パフォーマンスが高く、計算量が軽量であるため、微調整または大幅なハイパーパラメーター調整の実行中に LM からサンプリングする必要がなくなります。
私たちの実験では、DPO が既存の方法と同様、またはそれ以上に人間の好みに合わせて LM を微調整できることが示されています。
特に、DPO を使用した微調整は、世代間の感情を制御する能力において PPO ベースの RLHF を上回っており、実装とトレーニングが大幅に簡素化されながら、要約やシングルターン対話における応答品質と同等または向上します。

要約(オリジナル)

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model generations and fine-tune the unsupervised LM to align with these preferences, often with reinforcement learning from human feedback (RLHF). However, RLHF is a complex and often unstable procedure, first fitting a reward model that reflects the human preferences, and then fine-tuning the large unsupervised LM using reinforcement learning to maximize this estimated reward without drifting too far from the original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy in closed form, allowing us to solve the standard RLHF problem with only a simple classification loss. The resulting algorithm, which we call Direct Preference Optimization (DPO), is stable, performant, and computationally lightweight, eliminating the need for sampling from the LM during fine-tuning or performing significant hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align with human preferences as well as or better than existing methods. Notably, fine-tuning with DPO exceeds PPO-based RLHF in ability to control sentiment of generations, and matches or improves response quality in summarization and single-turn dialogue while being substantially simpler to implement and train.

arxiv情報

著者 Rafael Rafailov,Archit Sharma,Eric Mitchell,Stefano Ermon,Christopher D. Manning,Chelsea Finn
発行日 2023-12-13 18:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク