Reinforcement Learning for Reasoning in Large Language Models with One Training Example

要約

1つのトレーニング例(1ショットRLVR)を使用して検証可能な報酬を使用した強化学習が、大規模な言語モデル(LLM)の数学推論能力を奨励するのに効果的であることを示しています。
RLVRを基本モデルQWEN2.5-MATH-1.5Bに適用すると、Math500のモデルパフォーマンスを36.0%から73.6%に昇格させ、6つの一般的な数学的推論ベンチマークの平均パフォーマンスを17.6%から35.7%に改善する単一の例を特定します。
この結果は、前述の例を含む1.2Kディープスカラーサブセット(Math500:73.6%、平均:35.9%)を使用して得られたパフォーマンスと一致します。
さまざまなモデル(QWEN2.5-MATH-7B、LLAMA3.2-3B-INSTRUCT、DEEPSEEK-R1-DISTILL-QWEN-1.5B)、RLアルゴリズム(GRPOおよびPPO)、および異なる数学の例(多くの場合、1つのトレーニングの例としてMath500の改善が約30%以上の改善)で同様の実質的な改善が観察されます。
さらに、トレーニングの精度が飽和した後でも、クロスドメインの一般化、自己反射の頻度の増加、および持続的なテストパフォーマンスの改善など、1ショットのRLVR中にいくつかの興味深い現象を特定します。
さらに、1ショットRLVRの有効性は主にポリシーグラデーションの損失から生じることを確認し、「グローキング」現象と区別します。
また、1ショットRLVRトレーニングにおいて、探査を促進する重要な役割(たとえば、適切な係数でエントロピー損失を追加することにより)を示します。
ボーナスとして、結果の報酬なしでエントロピー損失のみを適用すると、QWEN2.5-MATH-1.5BのMath500でのパフォーマンスが大幅に向上することがわかります。
これらの調査結果は、RLVRデータ効率に関する将来の作業を促し、RLVRの最近の進捗と基礎となるメカニズムの両方の再検討を促進することができます。
私たちのコード、モデル、およびデータはhttps://github.com/ypwang61/one-shot-rlvrのオープンソースです

要約(オリジナル)

We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the ‘grokking’ phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B’s performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR

arxiv情報

著者 Yiping Wang,Qing Yang,Zhiyuan Zeng,Liliang Ren,Lucas Liu,Baolin Peng,Hao Cheng,Xuehai He,Kuan Wang,Jianfeng Gao,Weizhu Chen,Shuohang Wang,Simon Shaolei Du,Yelong Shen
発行日 2025-04-29 09:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク