要約
超人的なエージェントを実現するには、将来のモデルでは適切なトレーニング信号を提供するために超人的なフィードバックが必要になると考えられます。
現在のアプローチは通常、人間の好みに基づいて報酬モデルをトレーニングしますが、人間のパフォーマンス レベルによってボトルネックになる可能性があり、第 2 に、これらの個別の凍結された報酬モデルは、LLM トレーニング中に改善を学習することができません。
この研究では、自己報酬型言語モデルについて研究します。言語モデル自体は、トレーニング中に独自の報酬を提供するよう促す LLM-as-a-Judge を介して使用されます。
私たちは、反復的な DPO トレーニング中に、指示に従う能力が向上するだけでなく、自分自身に質の高い報酬を提供する能力も向上することを示しました。
私たちのアプローチを 3 回繰り返して Llama 2 70B を微調整すると、Claude 2、Gemini Pro、GPT-4 0613 など、AlpacaEval 2.0 リーダーボード上の多くの既存システムを上回るモデルが得られます。この作業は予備的な研究にすぎませんが、その扉を開きます。
両方の軸で継続的に改善できるモデルの可能性。
要約(オリジナル)
We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes.
arxiv情報
著者 | Weizhe Yuan,Richard Yuanzhe Pang,Kyunghyun Cho,Sainbayar Sukhbaatar,Jing Xu,Jason Weston |
発行日 | 2024-01-18 14:43:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google