Sleep-time Compute: Beyond Inference Scaling at Test-time

要約

スケーリングテスト時間計算は、大規模な言語モデル(LLM)を可能にするための重要な要素として困難な問題を解決できるようになりましたが、高遅延と推論コストが伴います。
クエリが表示される前にモデルがコンテキストについて「オフライン」できるようにするスリープタイムコンピューティングを導入します。ユーザーが尋ねる可能性のあるクエリを予測し、有用な量を事前に計算することにより、テスト時に計算要件を大幅に削減できます。
私たちの方法の有効性を実証するために、2つの推論タスクの修正バージョンを作成します – ステートフルGSM-シンボリックとステートフルなエイム。
睡眠時間計算は、ステートフルGSMシンボリックおよびステートフルなAIMEで同じ精度を達成するために必要なテスト時間計算量を減らすことができ、睡眠時間計算をスケーリングすることにより、ステートフルGSMシンボリックの精度をさらに13%増加させ、ステートフルAIMEで18%を増やすことができることがわかります。
さらに、コンテキストごとに複数の関連クエリを含めることにより、GSMシンボリックを拡張するマルチクエリGSMシンボリックを導入します。
マルチクエリGSM-シンボリックを使用して、関連するクエリ全体で睡眠時間計算を償却することにより、クエリあたりの平均コストを2.5倍削減できます。
次に、追加の分析を実施して、睡眠時間の計算が最も効果的であることを理解し、ユーザークエリの予測可能性が睡眠時間計算の有効性とよく相関していることを発見します。
最後に、睡眠時間計算を現実的なエージェントSWEタスクに適用するというケーススタディを実施します。

要約(オリジナル)

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to ‘think’ offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks – Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

arxiv情報

著者 Kevin Lin,Charlie Snell,Yu Wang,Charles Packer,Sarah Wooders,Ion Stoica,Joseph E. Gonzalez
発行日 2025-04-17 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク