要約
人間が生成したデータに対して言語モデル (LM) を微調整することは、依然として広く行われています。
ただし、そのようなモデルのパフォーマンスは、高品質の人間データの量と多様性によって制限されることがよくあります。
この論文では、スカラー フィードバックにアクセスできるタスク、たとえば、正しさを検証できる数学の問題について、人間のデータを超えられるかどうかを検討します。
そのために、ReST$^{EM}$ と呼ばれる、期待値最大化に基づく単純な自己学習方法を調査します。この方法では、(1) モデルからサンプルを生成し、バイナリ フィードバックを使用してそれらをフィルタリングします。(2) 微調整します。
-これらのサンプルでモデルを調整し、(3) このプロセスを数回繰り返します。
PaLM-2 モデルを使用して高度な MATH 推論と APPS コーディングのベンチマークをテストしたところ、ReST$^{EM}$ はモデルのサイズに合わせて良好に拡張でき、人間のデータのみでの微調整を大幅に上回っていることがわかりました。
全体として、私たちの調査結果は、フィードバックによる自己トレーニングが人間が生成したデータへの依存を大幅に軽減できることを示唆しています。
要約(オリジナル)
Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST$^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST$^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
arxiv情報
著者 | Avi Singh,John D. Co-Reyes,Rishabh Agarwal,Ankesh Anand,Piyush Patil,Xavier Garcia,Peter J. Liu,James Harrison,Jaehoon Lee,Kelvin Xu,Aaron Parisi,Abhishek Kumar,Alex Alemi,Alex Rizkowsky,Azade Nova,Ben Adlam,Bernd Bohnet,Gamaleldin Elsayed,Hanie Sedghi,Igor Mordatch,Isabelle Simpson,Izzeddin Gur,Jasper Snoek,Jeffrey Pennington,Jiri Hron,Kathleen Kenealy,Kevin Swersky,Kshiteej Mahajan,Laura Culp,Lechao Xiao,Maxwell L. Bileschi,Noah Constant,Roman Novak,Rosanne Liu,Tris Warkentin,Yundi Qian,Yamini Bansal,Ethan Dyer,Behnam Neyshabur,Jascha Sohl-Dickstein,Noah Fiedel |
発行日 | 2023-12-22 18:33:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google