SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

要約

推論時間計算の最近の進歩により、大きな推論モデル(LRMS)を使用して長い思考チェーン(COTS)を生成することにより、複雑なタスクのパフォーマンスが大幅に向上しました。
ただし、この改善された精度は、生成された推論シーケンスの長さとデコードの自己回帰の性質のために、高い推測レイテンシのコストでもたらされます。
これらのオーバーヘッドに取り組むことに関する私たちの重要な洞察は、LRM推論、およびそれが埋め込む理由は近似に非常に寛容であるということです。複雑なタスクは通常、より単純なステップに分解されます。
したがって、軽量モデルを使用して(投機的に)単純な中間推論ステップを実行し、推測される出力を評価(および潜在的に修正)する(および潜在的に修正)するために(投機的に)LRM推論を自動的に加速するシステムであるSpecReasonを導入します。
重要なことに、最終回答の精度を維持するためにトークンを考えることのセマンティックな柔軟性を活用することに焦点を当てていることは、各ステップでトークンレベルの等価性を必要とする、以前の投機技術、最も顕著な投機的デコードを補完することです。
さまざまな推論ベンチマークで、SpecReasonはバニラLRM推論で1.5-2.5 $ \ Times $ speedupを達成しながら、精度を1.0-9.9 \%に改善します。
スペックリーズシーズンなしでの投機的デコードと比較して、それらの組み合わせにより、さらに19.4-44.2 \%のレイテンシ削減が得られます。
https://github.com/ruipeterpan/specreasonでSpecreasonをオープンソースします。

要約(オリジナル)

Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason’s focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5$\times$ speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.

arxiv情報

著者 Rui Pan,Yinwei Dai,Zhihao Zhang,Gabriele Oliaro,Zhihao Jia,Ravi Netravali
発行日 2025-04-10 16:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク