How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach

要約

チェーンオブテルのプロンプトは、大規模な言語モデル(LLM)が複雑な推論タスクを解決できるようにするための強力なテクニックとして浮上しています。
ただし、これらの推論チェーンは冗長であり、効率性に関する懸念を引き起こす可能性があります。
これに応じて、最近の作品は、単純なプロンプト戦略(たとえば「簡潔」)を通じて応答の長さを減らすことを求めています。
この作業では、多様な圧縮命令にわたる推論長とモデルのパフォーマンスの関係に関する最初の体系的な研究を実施します(たとえば、「10ワード以下」または「すべての句読点を削除」)。
そうすることで、非常に明確な推論チェーンでも持続する推論の長さと精度の間の普遍的なトレードオフを発見します。
このトレードオフは、質問レベルでの鋭いしきい値の動作から生じることを実証します。各タスクには、本質的な「トークンの複雑さ」があります。これは、問題解決の成功に必要な最小限のトークンです。
トークンの複雑さにより、精度圧縮トレードオフの情報理論的制限を計算し、プロンプトベースの圧縮戦略がこれらの理論的な制限から遠く離れて機能することを発見する方法を示します。
これは、改善の余地がある可能性があることを示唆しており、私たちのフレームワークは、研究者が推論効率の進歩を評価するのに役立つベンチマークを提供することを示唆しています。
また、私たちの作業は、適応的な圧縮の重要性を強調しています – より簡単な質問のためにより短い応答を与える – そして、トークンの複雑さがこの機能を測定するための有用なツールであることを示します。

要約(オリジナル)

Chain-of-thought prompting has emerged as a powerful technique for enabling large language models (LLMs) to solve complex reasoning tasks. However, these reasoning chains can be verbose, raising concerns about efficiency. In response, recent works have sought to decrease response lengths through simple prompting strategies (e.g. ‘be concise’). In this work, we conduct the first systematic study of the relationship between reasoning length and model performance across a diverse range of compression instructions (e.g. ‘use 10 words or less’ or ‘remove all punctuation’). In doing so, we discover a universal tradeoff between reasoning length and accuracy that persists across even very distinct reasoning chains. We demonstrate that this tradeoff emerges from a sharp threshold behavior at the question level: each task has an intrinsic ‘token complexity’ – a minimal number of tokens required for successful problem-solving. We show how token complexity enables us to compute information-theoretic limits on the accuracy-compression tradeoff, and find that prompt-based compression strategies operate far from these theoretical limits. This suggests there may be significant room for improvement and our framework provides a benchmark to help researchers evaluate progress in reasoning efficiency. Our work also highlights the importance of adaptive compression — giving shorter responses for easier questions — and we show that token complexity is a useful tool for measuring this capability.

arxiv情報

著者 Ayeong Lee,Ethan Che,Tianyi Peng
発行日 2025-04-01 00:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク