Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

要約

テストタイムスケーリングの最近の進歩は、大きな言語モデル(LLM)が、特定の要求に応答するために考えられたチェーン推論(人間の思考に類似)を生成することにより、より良い能力を獲得し、その間、より多くの推論ブランチを探索すること(つまり、複数の応答を生成し、それらをアンサンする)が最終的な出力の品質を改善することを示唆しています。
ただし、2つのスケーリング寸法を組み込む場合、2つの理由でシステムの効率が大幅に減衰されることがわかります。
第一に、最終的な出力を生成するための時間コストは、多くの推論ブランチが過度に考えられているジレンマに閉じ込められ、過度に長い反応を生み出すため、大幅に増加します。
第二に、各リクエストの複数の推論ブランチを生成すると、メモリ消費が増加します。これは、同時に処理するための限られた数の要求のみをバッチすることができるため、LLMのサービングには適していません。
これに対処するために、効率的かつ正確なLLM推論のためのサービングフレームワークであるSARTを提示します。
本質的なアイデアは、長くではなく、短くて正しいと思考を管理することです。
一つには、経験的観察と理論分析に基づいて、早期停止アプローチを備えた冗長サンプリングを考案します。
もう1つは、低品質の分岐のみを動的に剪定することを提案して、右に考えているブランチのみが維持され、メモリ消費量を減らし、より多くのリクエストをバッチできるようにします。
実験結果は、SARTがLLMの推論の精度を改善するだけでなく、サービング効率を向上させ、既存の方法を最大28.2倍、同じレベルの精度を達成するときの効率の面で平均15.7倍を上回ることを示しています。

要約(オリジナル)

Recent advances in test-time scaling suggest that Large Language Models (LLMs) can gain better capabilities by generating Chain-of-Thought reasoning (analogous to human thinking) to respond a given request, and meanwhile exploring more reasoning branches (i.e., generating multiple responses and ensembling them) can improve the final output quality. However, when incorporating the two scaling dimensions, we find that the system efficiency is dampened significantly for two reasons. Firstly, the time cost to generate the final output increases substantially as many reasoning branches would be trapped in the over-thinking dilemma, producing excessively long responses. Secondly, generating multiple reasoning branches for each request increases memory consumption, which is unsuitable for LLM serving since we can only batch a limited number of requests to process simultaneously. To address this, we present SART, a serving framework for efficient and accurate LLM reasoning. The essential idea is to manage the thinking to be short and right, rather than long. For one thing, we devise a redundant sampling with early stopping approach based on empirical observations and theoretic analysis, which increases the likelihood of obtaining short-thinking responses when sampling reasoning branches. For another, we propose to dynamically prune low-quality branches so that only right-thinking branches are maintained, reducing the memory consumption and allowing us to batch more requests. Experimental results demonstrate that SART not only improves the accuracy of LLM reasoning but also enhances the serving efficiency, outperforming existing methods by up to 28.2 times and on average 15.7 times in terms of efficiency when achieving the same level of accuracy.

arxiv情報

著者 Yuhang Wang,Youhe Jiang,Bin Cui,Fangcheng Fu
発行日 2025-05-19 16:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク