RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

要約

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の嗜好に合わせるのに効果的であるが、高品質な人間の嗜好ラベルを収集することが重要なボトルネックとなっている。我々は、RLHFとAIフィードバックからのRL(RLAIF)の直接比較を行った。要約のタスクにおいて、人間の評価者は、ベースラインの教師ありファインチューニングモデルよりも、RLAIFとRLHFの両方からの世代を、70%程度のケースで好む。さらに、RLAIF対RLHFの要約を評価するよう求められた場合、人間は同率で両者を好む。これらの結果は、RLAIFが人間レベルの性能をもたらし、RLHFのスケーラビリティの限界に対する潜在的な解決策を提供できることを示唆している。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) – a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

arxiv情報

著者 Harrison Lee,Samrat Phatale,Hassan Mansoor,Kellie Lu,Thomas Mesnard,Colton Bishop,Victor Carbune,Abhinav Rastogi
発行日 2023-09-01 05:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク