要約
考え方は、モデルの推論能力を大幅に向上させますが、長いチェーンによる推論コストの大幅な増加も伴います。
推論パスは簡単なタスクの下で簡単に圧縮できますが、ハードタスクで苦労することができるという観察により、1つのモデルのみで推論パスの長さを弾力的に制御する可能性を探り、それにより、タスクの難易度に基づいて推論モデルの推論オーバーヘッドを動的に削減します。
。
モデルがさまざまな長さの推論チェーンを生成できるように設計されたCot-Valveという名前の新しいチューニングおよび推論戦略を紹介します。
これを達成するために、操作すると生成されたCOTの長さを効果的に制御できるパラメーター空間の方向を特定することを提案します。
さらに、このプロパティが推論チェーンを圧縮するのに役立つことを示しています。
同じ質問に対して長い範囲からショートまでチェーンを使用してデータセットを構築し、COTバルブの2つの強化された戦略を調査します。
私たちの実験は、COTバルブがチェーンの制御可能性と圧縮性を正常に有効にし、プロンプトベースの制御よりも優れたパフォーマンスを示すことを示しています。
この方法をQWQ-32B-PREVIEWに適用し、GSM8Kの741から225トークンにマイナーパフォーマンスの低下(95.07%から94.92%)と6827から4629トークンまでの推論チェーンを削減し、さらに1つの誤った回答がありました。
要約(オリジナル)
Chain-of-Thought significantly enhances a model’s reasoning capability, but it also comes with a considerable increase in inference costs due to long chains. With the observation that the reasoning path can be easily compressed under easy tasks but struggle on hard tasks, we explore the feasibility of elastically controlling the length of reasoning paths with only one model, thereby reducing the inference overhead of reasoning models dynamically based on task difficulty. We introduce a new tuning and inference strategy named CoT-Valve, designed to allow models to generate reasoning chains of varying lengths. To achieve this, we propose to identify a direction in the parameter space that, when manipulated, can effectively control the length of generated CoT. Moreover, we show that this property is valuable for compressing the reasoning chain. We construct datasets with chains from long to short for the same questions and explore two enhanced strategies for CoT-Valve: (1) a precise length-compressible CoT tuning method, and (2) a progressive chain length compression approach. Our experiments show that CoT-Valve successfully enables controllability and compressibility of the chain and shows better performance than the prompt-based control. We applied this method to QwQ-32B-Preview, reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with only one additional incorrect answer.
arxiv情報
著者 | Xinyin Ma,Guangnian Wan,Runpeng Yu,Gongfan Fang,Xinchao Wang |
発行日 | 2025-02-13 18:52:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google