Thinkless: LLM Learns When to Think

要約

拡張されたチェーンの推論が可能な推論言語モデルは、複雑な論理推論を必要とするタスクの顕著なパフォーマンスを実証しています。
ただし、すべてのクエリに精巧な推論を適用すると、多くの場合、多くの問題が簡単な解決策を認めている場合、多くの場合、かなりの計算の非効率性が生じます。
これは、未解決の質問を動機付けます:LLMSはいつ考えるべきかを学ぶことができますか?
これに答えるために、タスクの複雑さとモデルの能力の両方に基づいて、LLMが短型と長型の推論を適応的に選択できるようにする学習可能なフレームワークであるThinkLessを提案します。
Thinklessは、強化学習パラダイムの下で訓練され、2つのコントロールトークン、簡潔な応答のために、詳細な推論のためにを採用しています。
私たちの方法の中核には、グループ相対ポリシー最適化(DEGRPO)アルゴリズムが分離されているグループがあります。これは、ハイブリッド推論の学習目標を2つのコンポーネントに分解します。(1)推論モードの選択を支配するコントロールトークン損失、および(2)生成された回答の精度を改善する応答損失。
この分離された定式化により、各目標の貢献度を細かく制御し、トレーニングを安定させ、バニラGRPOで観察される崩壊を効果的に防ぐことができます。
経験的には、Minerva Algebra、Math-500、GSM8Kなどのいくつかのベンチマークでは、Thinklessは長鎖思考の使用を50%から90%減らすことができ、推論言語モデルの効率を大幅に改善します。
このコードは、https://github.com/vainf/thinklessで入手できます

要約(オリジナル)

Reasoning Language Models, capable of extended chain-of-thought reasoning, have demonstrated remarkable performance on tasks requiring complex logical inference. However, applying elaborate reasoning for all queries often results in substantial computational inefficiencies, particularly when many problems admit straightforward solutions. This motivates an open question: Can LLMs learn when to think? To answer this, we propose Thinkless, a learnable framework that empowers an LLM to adaptively select between short-form and long-form reasoning, based on both task complexity and the model’s ability. Thinkless is trained under a reinforcement learning paradigm and employs two control tokens, for concise responses and for detailed reasoning. At the core of our method is a Decoupled Group Relative Policy Optimization (DeGRPO) algorithm, which decomposes the learning objective of hybrid reasoning into two components: (1) a control token loss that governs the selection of the reasoning mode, and (2) a response loss that improves the accuracy of the generated answers. This decoupled formulation enables fine-grained control over the contributions of each objective, stabilizing training and effectively preventing collapse observed in vanilla GRPO. Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% – 90%, significantly improving the efficiency of Reasoning Language Models. The code is available at https://github.com/VainF/Thinkless

arxiv情報

著者 Gongfan Fang,Xinyin Ma,Xinchao Wang
発行日 2025-05-19 17:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク