要約
人間のフィードバックから学習することは、言語モデルを人間の好みに合わせるのに効果的であることが示されています。
これまでの研究では、人間の嗜好データに基づいてトレーニングされた報酬モデルから割り当てられた報酬スコアを使用して言語モデルを最適化する、ヒューマン フィードバックからの強化学習 (RLHF) に依存することがよくありました。
この研究では、最近導入された配列尤度キャリブレーション (SLiC) を使用して、人間の好みから効果的に学習する方法 (SLiC-HF) を示します。
さらに、これは、ポリシー外のオフライン RL データと同様に、別のモデルに対して収集された人間のフィードバック データを使用して実行できることを実証します。
TL;DR 要約タスクの自動および人間による評価実験では、SLiC-HF が教師付き微調整ベースラインを大幅に改善することが示されています。
さらに、SLiC-HF は、過去の研究で使用されていた PPO RLHF 実装に代わる競争力のある代替手段を提供すると同時に、実装がはるかに簡単で、調整も容易で、実際の計算効率も高くなります。
要約(オリジナル)
Learning from human feedback has been shown to be effective at aligning language models with human preferences. Past work has often relied on Reinforcement Learning from Human Feedback (RLHF), which optimizes the language model using reward scores assigned from a reward model trained on human preference data. In this work we show how the recently introduced Sequence Likelihood Calibration (SLiC), can also be used to effectively learn from human preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human feedback data collected for a different model, similar to off-policy, offline RL data. Automatic and human evaluation experiments on the TL;DR summarization task show that SLiC-HF significantly improves supervised fine-tuning baselines. Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF implementation used in past work while being much simpler to implement, easier to tune and more computationally efficient in practice.
arxiv情報
著者 | Yao Zhao,Rishabh Joshi,Tianqi Liu,Misha Khalman,Mohammad Saleh,Peter J. Liu |
発行日 | 2023-05-17 17:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google