Learning to Reason at the Frontier of Learnability

要約

強化学習は現在、特に数学の問題などの推論スタイルのタスクについて、大規模な言語モデルトレーニングの最終段階として広く採用されています。
通常、モデルは、単一のトレーニングステップ中に各質問を何度も試み、成功と失敗から学びます。
ただし、2つの広く使用されているデータセットでの2つの一般的なアルゴリズム(PPOとVineppo)を使用したトレーニング全体で、多くの質問がすべての試みによって解決されることを示しています。
これに対処するために、補強学習文献からの方法を適応させます – 学習性のためのサンプリング – を適用し、LLMトレーニングの強化学習段階に適用します。
私たちのカリキュラムは、成功の高いばらつきのある質問、つまりエージェントが成功することがありますが、常にではありませんが、質問を優先します。
私たちの調査結果は、このカリキュラムが複数のアルゴリズムとデータセットにわたってトレーニングパフォーマンスを一貫して向上させ、LLMを使用したより効率的で効果的な強化学習への道を開いていることを示しています。

要約(オリジナル)

Reinforcement learning is now widely adopted as the final stage of large language model training, especially for reasoning-style tasks such as maths problems. Typically, models attempt each question many times during a single training step and attempt to learn from their successes and failures. However, we demonstrate that throughout training with two popular algorithms (PPO and VinePPO) on two widely used datasets, many questions are either solved by all attempts – meaning they are already learned – or by none – providing no meaningful training signal. To address this, we adapt a method from the reinforcement learning literature – sampling for learnability – and apply it to the reinforcement learning stage of LLM training. Our curriculum prioritises questions with high variance of success, i.e. those where the agent sometimes succeeds, but not always. Our findings demonstrate that this curriculum consistently boosts training performance across multiple algorithms and datasets, paving the way for more efficient and effective reinforcement learning with LLMs.

arxiv情報

著者 Thomas Foster,Jakob Foerster
発行日 2025-02-24 18:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク