Concise Reasoning via Reinforcement Learning

要約

大規模な言語モデル(LLMS)の大幅な進歩にもかかわらず、推論モデルの主要な欠点は、計算コスト、リソース要件、および応答時間を増やす膨大なトークン使用です。
この作業では、強化学習(RL)の核となる原則を再検討し、数学的分析を通じて、トレーニング中のRLベースの最適化から本質的に長い応答を生成する傾向が生じることを示しています。
この発見は、より長い応答が本質的に推論の正確性を改善するという一般的な仮定に疑問を呈しています。
代わりに、見落とされがちな簡潔さと精度の間の自然な相関関係を明らかにします。
さらに、小さな問題と限られたリソースを使用して、トレーニング後のRLの二次段階を導入すると、精度を維持したり、強化したりしながら、モデルの思考チェーンを大幅に減らすことができることを示しています。
最後に、広範な実験結果を通じて結論を検証します。

要約(オリジナル)

Despite significant advancements in large language models (LLMs), a major drawback of reasoning models is their enormous token usage, which increases computational cost, resource requirements, and response time. In this work, we revisit the core principles of reinforcement learning (RL) and, through mathematical analysis, demonstrate that the tendency to generate lengthy responses arises inherently from RL-based optimization during training. This finding questions the prevailing assumption that longer responses inherently improve reasoning accuracy. Instead, we uncover a natural correlation between conciseness and accuracy that has been largely overlooked. Moreover, we show that introducing a secondary phase of RL post-training, using a small set of problems and limited resources, can significantly reduce a model’s chain of thought while maintaining or even enhancing accuracy. Finally, we validate our conclusions through extensive experimental results.

arxiv情報

著者 Mehdi Fatemi,Banafsheh Rafiee,Mingjie Tang,Kartik Talamadupula
発行日 2025-04-07 15:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク