Fractured Chain-of-Thought Reasoning

要約

推論時間スケーリング手法は、再訓練なしで推論で追加の計算努力を活用することにより、大規模な言語モデル(LLM)の推論能力を大幅に強化しました。
同様に、チェーンオブ考え(COT)プロンプトとその拡張である長いCOTは、豊富な中間推論の軌跡を生成することにより精度を向上させますが、これらのアプローチは、遅延に敏感な設定での展開を妨げる実質的なトークンコストが発生します。
この作業では、まず、完了前に推論を停止し、最終的な回答を直接生成する切り捨てられたCOTが、劇的に少ないトークンを使用しながら完全なCOTサンプリングと一致することが多いことを示します。
この洞察に基づいて、3つの直交軸に沿って完全なCOTとソリューションのみのサンプリングを補間する統一された推論時間戦略である骨折したサンプリングを導入します。(1)推論軌跡の数、(2)トランジジェントあたりの最終溶液の数、および(3)推論の痕跡が分散される深さ。
5つの多様な推論ベンチマークといくつかのモデルスケールに関する広範な実験を通じて、骨折したサンプリングが一貫して優れた精度コストのトレードオフを達成し、Pass@K対トークン予算の急な対数線形スケーリングゲインをもたらすことを実証します。
私たちの分析では、これらの次元に計算を割り当てる方法を明らかにして、パフォーマンスを最大化し、より効率的でスケーラブルなLLMの推論への道を開いています。
コードはhttps://github.com/baohaoliao/frac-cotで入手できます。

要約(オリジナル)

Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing additional computational effort at inference without retraining. Similarly, Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy by generating rich intermediate reasoning trajectories, but these approaches incur substantial token costs that impede their deployment in latency-sensitive settings. In this work, we first show that truncated CoT, which stops reasoning before completion and directly generates the final answer, often matches full CoT sampling while using dramatically fewer tokens. Building on this insight, we introduce Fractured Sampling, a unified inference-time strategy that interpolates between full CoT and solution-only sampling along three orthogonal axes: (1) the number of reasoning trajectories, (2) the number of final solutions per trajectory, and (3) the depth at which reasoning traces are truncated. Through extensive experiments on five diverse reasoning benchmarks and several model scales, we demonstrate that Fractured Sampling consistently achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling gains in Pass@k versus token budget. Our analysis reveals how to allocate computation across these dimensions to maximize performance, paving the way for more efficient and scalable LLM reasoning. Code is available at https://github.com/BaohaoLiao/frac-cot.

arxiv情報

著者 Baohao Liao,Hanze Dong,Yuhui Xu,Doyen Sahoo,Christof Monz,Junnan Li,Caiming Xiong
発行日 2025-06-18 15:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク