要約
人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデル(LLM)を人間の嗜好に合わせるのに効果的であることが証明されている。しかし、高品質な人間の嗜好ラベルを収集することは、時間とコストがかかる。Baiらによって導入されたRL from AI Feedback (RLAIF)は、強力な市販のLLMを活用し、人間の注釈者の代わりに嗜好を生成する有望な代替手段を提供する。要約、有用な対話生成、無害な対話生成の各タスクにおいて、RLAIFは人間の評価者による評価でRLHFと同等かそれ以上の性能を達成している。さらに、RLAIFは、LLMプリファレンスラベラーがポリシーと同じサイズである場合でも、教師ありファインチューニングベースラインを上回る能力を示す。別の実験では、LLMに報酬スコアを直接要求することで、LLMの嗜好ラベルを最初に報酬モデルに蒸留する典型的なRLAIFセットアップよりも優れた性能を達成した。最後に、整列されたAI嗜好を生成する技術について広範な研究を行った。我々の結果は、RLAIFが人間レベルの性能を達成できることを示唆しており、RLHFのスケーラビリティの限界に対する潜在的な解決策を提供する。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences. However, gathering high-quality human preference labels can be a time-consuming and expensive endeavor. RL from AI Feedback (RLAIF), introduced by Bai et al., offers a promising alternative that leverages a powerful off-the-shelf LLM to generate preferences in lieu of human annotators. Across the tasks of summarization, helpful dialogue generation, and harmless dialogue generation, RLAIF achieves comparable or superior performance to RLHF, as rated by human evaluators. Furthermore, RLAIF demonstrates the ability to outperform a supervised fine-tuned baseline even when the LLM preference labeler is the same size as the policy. In another experiment, directly prompting the LLM for reward scores achieves superior performance to the canonical RLAIF setup, where LLM preference labels are first distilled into a reward model. Finally, we conduct extensive studies on techniques for generating aligned AI preferences. Our results suggest that RLAIF can achieve human-level performance, offering a potential solution to the scalability limitations of RLHF.
arxiv情報
著者 | Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,Victor Carbune,Abhinav Rastogi,Sushant Prakash |
発行日 | 2023-12-01 01:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |