RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

要約

人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデル(LLM)を人間の嗜好に合わせるのに有効であることが証明されているが、高品質の嗜好ラベルを収集するにはコストがかかる。Bai et al.で紹介されたRL from AI Feedback (RLAIF)は、既製のLLMによって生成された嗜好を報酬モデル(RM)に学習させるという有望な代替手段を提供する。要約、有用な対話生成、無害な対話生成の各タスクにおいて、RLAIFがRLHFに匹敵する性能を達成することを示す。さらに、RLAIFは、AIラベラーがポリシーと同じサイズ、あるいは最初のポリシーと全く同じチェックポイントであっても、教師付き微調整ベースラインを上回ることができることを実証することで、「自己改善」への一歩を踏み出す。最後に、我々はdirect-RLAIF (d-RLAIF)を導入する。これは、RL中に市販のLLMから直接報酬を得ることで、RM学習を回避する手法であり、カノニカルRLAIFよりも優れた性能を達成する。我々の結果は、RLAIFが人間のフィードバックを用いるのと同等の性能を達成できることを示唆しており、RLHFのスケーラビリティの限界に対する潜在的な解決策を提供する。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but gathering high-quality preference labels is expensive. RL from AI Feedback (RLAIF), introduced in Bai et al., offers a promising alternative that trains the reward model (RM) on preferences generated by an off-the-shelf LLM. Across the tasks of summarization, helpful dialogue generation, and harmless dialogue generation, we show that RLAIF achieves comparable performance to RLHF. Furthermore, we take a step towards ‘self-improvement’ by demonstrating that RLAIF can outperform a supervised fine-tuned baseline even when the AI labeler is the same size as the policy, or even the exact same checkpoint as the initial policy. Finally, we introduce direct-RLAIF (d-RLAIF) – a technique that circumvents RM training by obtaining rewards directly from an off-the-shelf LLM during RL, which achieves superior performance to canonical RLAIF. Our results suggest that RLAIF can achieve performance on-par with using human feedback, offering a potential solution to the scalability limitations of RLHF.

arxiv情報

著者 Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,Victor Carbune,Abhinav Rastogi,Sushant Prakash
発行日 2024-09-03 14:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク