要約
拡張されたチェーンの推論が可能な推論言語モデルは、複雑な論理推論を必要とするタスクの顕著なパフォーマンスを実証しています。
ただし、すべてのクエリに精巧な推論を適用すると、多くの場合、多くの問題が簡単な解決策を認めている場合、多くの場合、かなりの計算の非効率性が生じます。
これは、未解決の質問を動機付けます:LLMSはいつ考えるべきかを学ぶことができますか?
これに答えるために、タスクの複雑さとモデルの能力の両方に基づいて、LLMが短型と長型の推論を適応的に選択できるようにする学習可能なフレームワークであるThinkLessを提案します。
Thinklessは、強化学習パラダイムの下で訓練され、2つのコントロールトークン、簡潔な応答のために
私たちの方法の中核には、グループ相対ポリシー最適化(DEGRPO)アルゴリズムが分離されているグループがあります。これは、ハイブリッド推論の学習目標を2つのコンポーネントに分解します。(1)推論モードの選択を支配するコントロールトークン損失、および(2)生成された回答の精度を改善する応答損失。
この分離された定式化により、各目標の貢献度を細かく制御し、トレーニングを安定させ、バニラGRPOで観察される崩壊を効果的に防ぐことができます。
経験的には、Minerva Algebra、Math-500、GSM8Kなどのいくつかのベンチマークでは、Thinklessは長鎖思考の使用を50%から90%減らすことができ、推論言語モデルの効率を大幅に改善します。
このコードは、https://github.com/vainf/thinklessで入手できます
要約(オリジナル)
Reasoning Language Models, capable of extended chain-of-thought reasoning, have demonstrated remarkable performance on tasks requiring complex logical inference. However, applying elaborate reasoning for all queries often results in substantial computational inefficiencies, particularly when many problems admit straightforward solutions. This motivates an open question: Can LLMs learn when to think? To answer this, we propose Thinkless, a learnable framework that empowers an LLM to adaptively select between short-form and long-form reasoning, based on both task complexity and the model’s ability. Thinkless is trained under a reinforcement learning paradigm and employs two control tokens,
arxiv情報
著者 | Gongfan Fang,Xinyin Ma,Xinchao Wang |
発行日 | 2025-05-19 17:24:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google