要約
チェーンオブシュート(COT)は、大規模な言語モデル(LLM)の推論能力を高めるのに効果的であることが証明されています。
OpenaiのO1やDeepSeek-R1などの最近の進歩は、推論中にCOTシーケンスの長さを拡大すると、LLMの推論パフォーマンスをさらに高める可能性があることを示唆しています。
ただし、LLMデコードの自己網目上の性質により、COT出力が長くなると、特にCOTが10,000トークンを超える場合、ユーザーエクスペリエンスに悪影響を及ぼします。
この制限に対処するために、COT出力内のトークンのセマンティックの重要性を分析し、推論への貢献が異なることを明らかにします。
この洞察に基づいて、LLMSがより重要性の低いトークンを選択的にスキップし、制御可能なCOT圧縮を可能にするシンプルで効果的なアプローチであるTokenskipを提案します。
さまざまなモデルやタスクにわたる広範な実験は、強力な推論パフォーマンスを維持しながら、COTトークンの使用を削減する際のTokenskipの有効性を示しています。
特に、QWEN2.5-14B-Instructに適用すると、TokenSkipはGSM8Kで推論トークン(313から181)の推論トークンを40%(313から181)減少させ、パフォーマンスは0.4%未満です。
要約(オリジナル)
Chain-of-Thought (CoT) has been proven effective in enhancing the reasoning capabilities of large language models (LLMs). Recent advancements, such as OpenAI’s o1 and DeepSeek-R1, suggest that scaling up the length of CoT sequences during inference could further boost LLM reasoning performance. However, due to the autoregressive nature of LLM decoding, longer CoT outputs lead to a linear increase in inference latency, adversely affecting user experience, particularly when the CoT exceeds 10,000 tokens. To address this limitation, we analyze the semantic importance of tokens within CoT outputs and reveal that their contributions to reasoning vary. Building on this insight, we propose TokenSkip, a simple yet effective approach that enables LLMs to selectively skip less important tokens, allowing for controllable CoT compression. Extensive experiments across various models and tasks demonstrate the effectiveness of TokenSkip in reducing CoT token usage while preserving strong reasoning performance. Notably, when applied to Qwen2.5-14B-Instruct, TokenSkip reduces reasoning tokens by 40% (from 313 to 181) on GSM8K, with less than a 0.4% performance drop.
arxiv情報
著者 | Heming Xia,Yongqi Li,Chak Tou Leong,Wenjie Wang,Wenjie Li |
発行日 | 2025-02-17 17:37:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google