SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models

要約

大規模な言語モデル(LLMS)は、推論の品質と計算コストの間に重要なトレードオフを提示します。大きなモデルは優れた機能を提供しますが、大幅な遅延が発生しますが、小規模なモデルはより速いが強力ではありません。
既存のサービング戦略は、多くの場合、固定モデルスケールまたは静的な2段階の投機的デコードを採用しており、ユーザー要求のさまざまな複雑さやシステムパフォーマンスの変動に動的に適応できません。
このペーパーでは、マルチレベルの投機的デコードを通じて解決された適応ルーティングの問題としてLLM推論を再考する新しいフレームワークである\ SystemName {}を紹介します。
\ SystemName {}リアルタイムフィードバックに基づいて、推論「パス」(モデルのチェーン)を動的に構築および最適化し、静的アプローチの制限に対処します。
私たちの貢献は、(1)パフォーマンスプロファイリング(実行時間)および予測的類似性メトリック(トークン分布の発散に由来する)を活用する\ textBf {Adaptive Model Chain Scheduling}メカニズムを3倍にし、ドラフトとベリファイアモデルの最適なシーケンスを継続的に選択し、発電されたトークンあたりのレイテンシーを最小化します。
(2)選択されたチェーン内の中間モデルが投機的トークンを検証し、最終的な最も強力なターゲットモデルの検証負担を軽減できるa \ textBf {マルチレベルのコラボレーション検証}フレームワーク。
(3)a \ textBf {同期状態管理}システムは、マルチレベルの投機に固有の非同期バッチ処理に合わせた正確で低オーバーヘッドロールバックを含む、チェーン内の異種モデル全体で効率的で一貫したKVキャッシュ処理を提供します。
予備的な実験は、私たちの方法の妥当性を示しています。

要約(オリジナル)

Large Language Models (LLMs) present a critical trade-off between inference quality and computational cost: larger models offer superior capabilities but incur significant latency, while smaller models are faster but less powerful. Existing serving strategies often employ fixed model scales or static two-stage speculative decoding, failing to dynamically adapt to the varying complexities of user requests or fluctuations in system performance. This paper introduces \systemname{}, a novel framework that reimagines LLM inference as an adaptive routing problem solved through multi-level speculative decoding. \systemname{} dynamically constructs and optimizes inference ‘paths’ (chains of models) based on real-time feedback, addressing the limitations of static approaches. Our contributions are threefold: (1) An \textbf{adaptive model chain scheduling} mechanism that leverages performance profiling (execution times) and predictive similarity metrics (derived from token distribution divergence) to continuously select the optimal sequence of draft and verifier models, minimizing predicted latency per generated token. (2) A \textbf{multi-level collaborative verification} framework where intermediate models within the selected chain can validate speculative tokens, reducing the verification burden on the final, most powerful target model. (3) A \textbf{synchronized state management} system providing efficient, consistent KV cache handling across heterogeneous models in the chain, including precise, low-overhead rollbacks tailored for asynchronous batch processing inherent in multi-level speculation. Preliminary experiments demonstrate the validity of our method.

arxiv情報

著者 Hang Wu,Jianian Zhu,Yinghui Li,Haojie Wang,Biao Hou,Jidong Zhai
発行日 2025-05-12 15:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク