要約
自己補正は大規模言語モデル(LLM)にとって非常に望ましい機能であるが、最新のLLMではほとんど効果がないことが一貫して判明している。自己補正を学習するための現在の方法は、通常、複数のモデル、より高度なモデル、または追加の監視形式のいずれかに依存している。これらの欠点に対処するため、我々は、完全に自己生成されたデータを用いてLLMの自己修正能力を大幅に向上させる、マルチターンオンライン強化学習(RL)アプローチSCoReを開発する。SCoReを構築するために、我々はまず、オフラインでモデルが生成した修正トレースに対する教師付き微調整(SFT)の変形が、自己修正動作を植え付けるには不十分であることが多いことを示す。特に、SFTによる学習は、データ収集ポリシーによるミスとモデル自身の応答との間の分布の不一致、あるいは、テスト問題での自己修正に有効でないことが多い特定の修正動作のみを学習が暗黙的に好むという動作崩壊のどちらかの餌食になることを観察する。SCoReは、モデル自身の自己生成した修正トレースの分布の下で学習し、適切な正則化を使用して、与えられたプロンプトに対して高報酬の応答を適合させるのではなく、テスト時に効果的な自己修正動作を学習するように学習プロセスを誘導することで、これらの課題に対処します。この正則化プロセスには、崩壊の影響を受けにくいポリシーの初期化を生成するために、ベースモデル上でマルチターンRLを行う初期段階と、自己修正を増幅するために報酬ボーナスを使用する段階が含まれる。Gemini 1.0 Proと1.5 Flashモデルを用いた場合、SCoReは最先端の自己修正性能を達成し、MATHとHumanEvalにおいてベースモデルの自己修正性能をそれぞれ15.6%と9.1%向上させることがわかった。
要約(オリジナル)
Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Current methods for training self-correction typically depend on either multiple models, a more advanced model, or additional forms of supervision. To address these shortcomings, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM’s self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are often insufficient for instilling self-correction behavior. In particular, we observe that training via SFT falls prey to either a distribution mismatch between mistakes made by the data-collection policy and the model’s own responses, or to behavior collapse, where learning implicitly prefers only a certain mode of correction behavior that is often not effective at self-correction on test problems. SCoRe addresses these challenges by training under the model’s own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction behavior that is effective at test time as opposed to fitting high-reward responses for a given prompt. This regularization process includes an initial phase of multi-turn RL on a base model to generate a policy initialization that is less susceptible to collapse, followed by using a reward bonus to amplify self-correction. With Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on MATH and HumanEval.
arxiv情報
著者 | Aviral Kumar,Vincent Zhuang,Rishabh Agarwal,Yi Su,John D Co-Reyes,Avi Singh,Kate Baumli,Shariq Iqbal,Colton Bishop,Rebecca Roelofs,Lei M Zhang,Kay McKinney,Disha Shrivastava,Cosmin Paduraru,George Tucker,Doina Precup,Feryal Behbahani,Aleksandra Faust |
発行日 | 2024-10-04 17:28:45+00:00 |
arxivサイト | arxiv_id(pdf) |