Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

要約

検証可能な報酬(RLVR)による強化学習は最近、特に数学とプログラミングタスクに関する大規模な言語モデル(LLM)の推論パフォーマンスを強化する際の顕著な成功を実証しました。
従来のRLがエージェントが新しい戦略を探求し、学習するのに役立つように、RLVRはLLMが継続的に自己改善できるようにすると考えられており、対応するベースモデルの能力を超えて新しい推論能力を獲得します。
この研究では、さまざまなモデルファミリ、RLアルゴリズム、数学、コーディング、および視覚的推論ベンチマークでRLVRトレーニングを受けたLLMの推論能力境界を体系的に調査することにより、RLVRの現在の状態を批判的に調べます。
驚くべきことに、現在のトレーニングセットアップは根本的に新しい推論パターンを引き出していないことがわかります。
RLVRトレーニングモデルは、小さなK(例:k = 1)でベースモデルよりも優れていますが、BaseモデルはKが大きい場合、より高いパス@Kスコアを達成します。
カバレッジと困惑の分析は、観察された推論能力が基本モデルから由来し、境界があることを示しています。
基本モデルを上限として扱うことで、私たちの定量分析は、6つの一般的なRLVRアルゴリズムが同様に機能し、ベースモデルの可能性を活用するのに最適ではないことを示しています。
対照的に、蒸留は教師から新しい推論パターンを導入し、モデルの推論能力を真に拡大できることがわかります。
全体として、我々の調査結果は、現在のRLVRメソッドが、LLMの真の新しい推論能力を引き出すRLの可能性をまだ認識していないことを示唆しています。
これは、この可能性のロックを解除するために、継続的なスケーリングやマルチターンエージェントと環境の相互作用などの改善されたRLパラダイムの必要性を強調しています。

要約(オリジナル)

Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning performance of large language models (LLMs), particularly on mathematics and programming tasks. Similar to how traditional RL helps agents explore and learn new strategies, RLVR is believed to enable LLMs to continuously self-improve, thus acquiring novel reasoning abilities beyond those of the corresponding base models. In this study we critically examine the current state of RLVR by systematically probing the reasoning capability boundaries of RLVR-trained LLMs across various model families, RL algorithms, and math, coding, and visual reasoning benchmarks, using pass@k at large k values as the evaluation metric. Surprisingly, we find that the current training setup does not elicit fundamentally new reasoning patterns. While RLVR-trained models outperform their base models at small k (e.g., k = 1), the base models achieve a higher pass@k score when k is large. Coverage and perplexity analyses show that the observed reasoning abilities originate from and are bounded by the base model. Treating the base model as an upper bound, our quantitative analysis shows that six popular RLVR algorithms perform similarly and remain far from optimal in leveraging the potential of the base model. By contrast, we find that distillation can introduce new reasoning patterns from the teacher and genuinely expand the model’s reasoning capabilities. Overall, our findings suggest that current RLVR methods have not yet realized the potential of RL to elicit truly novel reasoning abilities in LLMs. This highlights the need for improved RL paradigms, such as continual scaling and multi-turn agent-environment interaction, to unlock this potential.

arxiv情報

著者 Yang Yue,Zhiqi Chen,Rui Lu,Andrew Zhao,Zhaokai Wang,Yang Yue,Shiji Song,Gao Huang
発行日 2025-05-16 15:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク