要約
チェーンオブシャーテーション(COT)プロンプトは、大規模な言語モデル(LLMS)の推論を改善する一方で、推論トークンの過度の長さはレイテンシとKVキャッシュメモリの使用量を増加させ、コンテキスト制限の下で最終回答を切り捨てることさえあります。
推論生成を早期に終了し、モデルを変更せずに出力品質を維持する推論効率の高いフレームワークであるThinklessを提案します。
Atttention分析により、回答トークンは以前の推論ステップに最小限に焦点を合わせ、主に因果マスキングの下での情報移行により、主に推論ターミネータートークンに注意を払うことが明らかになりました。
この洞察に基づいて、Thinklessがターミネータートークンを以前の位置に挿入して、基礎となる知識移転を維持しながら冗長な推論をスキップします。
早期終了によって分類された形式の減少を防ぐために、ThinkLessは、明確な回答後の軽量規制メカニズムを採用し、モデルの自然な指導に依存する能力に依存して、明確に構成された回答を生成します。
微調整または補助データがなければ、Thinklessは、デコード時間とメモリ消費を大幅に削減しながら、フルレングスのCOTデコードに匹敵する精度を達成します。
要約(オリジナル)
While Chain-of-Thought (CoT) prompting improves reasoning in large language models (LLMs), the excessive length of reasoning tokens increases latency and KV cache memory usage, and may even truncate final answers under context limits. We propose ThinkLess, an inference-efficient framework that terminates reasoning generation early and maintains output quality without modifying the model. Atttention analysis reveals that answer tokens focus minimally on earlier reasoning steps and primarily attend to the reasoning terminator token, due to information migration under causal masking. Building on this insight, ThinkLess inserts the terminator token at earlier positions to skip redundant reasoning while preserving the underlying knowledge transfer. To prevent format discruption casued by early termination, ThinkLess employs a lightweight post-regulation mechanism, relying on the model’s natural instruction-following ability to produce well-structured answers. Without fine-tuning or auxiliary data, ThinkLess achieves comparable accuracy to full-length CoT decoding while greatly reducing decoding time and memory consumption.
arxiv情報
著者 | Gengyang Li,Yifeng Gao,Yuming Li,Yunfang Wu |
発行日 | 2025-05-21 15:58:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google