要約
テスト時間スケーリングが大規模な言語モデルコミュニティに積極的な研究に焦点を当てているため、高度なトレーニング後の方法は、拡張されたチェーン(COT)生成の長さをますます強調し、それにより、DeepSeek R1のような推論モデルにアプローチする推論能力を高めます。
しかし、最近の研究は、推論モデル(QWEN3でさえ)がCOT生成において一貫して過度の思考冗長性を示すことを明らかにしています。
この考え直しの問題は、従来の結果報酬強化学習の中間推論ステップを調節する際の体系的な無視に起因します。
このペーパーでは、シリアルグループの減衰報酬ポリシーの最適化(すなわちS-GRPO)を提案します。これは、モデルが推論ステップの十分性を判断する能力を強化し、その後COT生成の早期出口を引き起こす能力を強化する新しい強化学習方法です。
具体的には、複数の可能な完了(並列グループ)を並行してサンプリングするGRPOとは異なり、1つのCOTの生成で複数の時間的位置を選択して、モデルが思考を終了し、代わりに回答(シリアルグループ)を生成します。
シリアルグループの正解については、ポジションに応じて崩壊する報酬を割り当て、後のものに対する報酬が低いため、モデルの動作を強化して、初期の測定値でより高品質の回答を生成します。
経験的評価は、QWEN3やDeepSeek-Distillモデルを含む最先端の推論モデルとの互換性を実証し、GSM8K、AIME 2024、AMC 2023、およびGPQAダイヤモンドベンチマークの0.72%〜61.1 \%シーケンス長縮小を達成し、0.72%〜61.1 \%シーケンス長さを達成します。
要約(オリジナル)
As Test-Time Scaling emerges as an active research focus in the large language model community, advanced post-training methods increasingly emphasize extending chain-of-thought (CoT) generation length, thereby enhancing reasoning capabilities to approach Deepseek R1-like reasoning models. However, recent studies reveal that reasoning models (even Qwen3) consistently exhibit excessive thought redundancy in CoT generation. This overthinking problem stems from conventional outcome-reward reinforcement learning’s systematic neglect in regulating intermediate reasoning steps. This paper proposes Serial-Group Decaying-Reward Policy Optimization (namely S-GRPO), a novel reinforcement learning method that empowers models with the capability to determine the sufficiency of reasoning steps, subsequently triggering early exit of CoT generation. Specifically, unlike GRPO, which samples multiple possible completions (parallel group) in parallel, we select multiple temporal positions in the generation of one CoT to allow the model to exit thinking and instead generate answers (serial group), respectively. For the correct answers in a serial group, we assign rewards that decay according to positions, with lower rewards towards the later ones, thereby reinforcing the model’s behavior to generate higher-quality answers at earlier phases with earlier exits of thinking. Empirical evaluations demonstrate compatibility with state-of-the-art reasoning models, including Qwen3 and Deepseek-distill models, achieving 35.4% ~ 61.1\% sequence length reduction with 0.72% ~ 6.08% accuracy improvements across GSM8K, AIME 2024, AMC 2023, MATH-500, and GPQA Diamond benchmarks.
arxiv情報
著者 | Muzhi Dai,Chenxu Yang,Qingyi Si |
発行日 | 2025-05-12 15:50:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google