要約
大規模言語モデル (LLM) の急速な進化により、数学的問題解決、コード生成、法的分析などの高度な推論タスクにおける機能が解放されました。
この進歩の中心となるのは推論時推論アルゴリズムです。これは、コンピューティング要求と応答待ち時間の増加を犠牲にして、複数の解決策を探索することで出力を洗練します。
既存のサービス システムは、これらのアルゴリズムのスケーリング動作やクエリのさまざまな難易度に適応できず、リソースの使用効率が低下し、レイテンシー目標が達成されません。
LLM 推論クエリの推論時間の計算を最適化するシステムである Dynasor を紹介します。
従来のエンジンとは異なり、Dynasor は推論クエリ内のリクエストを追跡およびスケジュールし、モデルの確実性に基づいて統計的推論の進行状況を測定するプロキシである Certaindex を使用して、コンピューティング割り当てを動的にガイドします。
Dynasor はスケジューリングと推論の進行状況を同時に調整します。つまり、難しいクエリにはより多くのコンピューティングを割り当て、単純なクエリにはコンピューティングを削減し、見込みのないクエリを早期に終了して、精度、レイテンシ、コストのバランスをとります。
Dynasor は、多様なデータセットとアルゴリズム上で、バッチ処理でコンピューティングを最大 50% 削減し、オンライン サービスで 3.3 倍の高いクエリ レートまたは 4.7 倍の短いレイテンシー SLO を維持します。
要約(オリジナル)
The rapid evolution of large language models (LLMs) has unlocked their capabilities in advanced reasoning tasks like mathematical problem-solving, code generation, and legal analysis. Central to this progress are inference-time reasoning algorithms, which refine outputs by exploring multiple solution paths, at the cost of increasing compute demands and response latencies. Existing serving systems fail to adapt to the scaling behaviors of these algorithms or the varying difficulty of queries, leading to inefficient resource use and unmet latency targets. We present Dynasor, a system that optimizes inference-time compute for LLM reasoning queries. Unlike traditional engines, Dynasor tracks and schedules requests within reasoning queries and uses Certaindex, a proxy that measures statistical reasoning progress based on model certainty, to guide compute allocation dynamically. Dynasor co-adapts scheduling with reasoning progress: it allocates more compute to hard queries, reduces compute for simpler ones, and terminates unpromising queries early, balancing accuracy, latency, and cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50% in batch processing and sustaining 3.3x higher query rates or 4.7x tighter latency SLOs in online serving.
arxiv情報
著者 | Yichao Fu,Junda Chen,Siqi Zhu,Zheyu Fu,Zhongdongming Dai,Aurick Qiao,Hao Zhang |
発行日 | 2024-12-30 14:57:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google