要約
投機的復号は、より小さなドラフトモデルを使ってトークンを提案し、それをより大きなターゲットモデルで検証することで、大規模言語モデル(LLM)推論を高速化する。しかし、最適な投機長を選択することは、無駄な計算を最小限に抑えながら高速化を最大化するために重要です。我々は、ヒューリスティックベースのスイッチングメカニズムを使って、トークンの受理率に基づいて投機の長さを動的に調整する、トレーニング不要の適応型アルゴリズムである˶‾textit{GammaTune}と˶‾textit{GammaTune+}を紹介します。複数のタスクとモデル・ペアをSpecBenchで評価した結果、本手法は他のヒューリスティッ ク・ベースのアプローチと固定長の投機的デコードを凌駕し、性能のばらつきを抑えながら、 ⊖textit{GammaTune}で平均15% ($pm$5%)、⊖textit{GammaTune+}で平均16% ($pm$3%)の高速化を達成した。これによって、実世界での展開において ˶´﹀`˵ はロバストで効率的なソリューションになります。
要約(オリジナル)
Speculative decoding accelerates large language model (LLM) inference by using a smaller draft model to propose tokens, which are then verified by a larger target model. However, selecting an optimal speculation length is critical for maximizing speedup while minimizing wasted computation. We introduce \textit{GammaTune} and \textit{GammaTune+}, training-free adaptive algorithms that dynamically adjust speculation length based on token acceptance rates using a heuristic-based switching mechanism. Evaluated on SpecBench across multiple tasks and model pairs, our method outperforms other heuristic-based approaches and fixed-length speculative decoding, achieving an average speedup of 15\% ($\pm$5\%) with \textit{GammaTune} and 16\% ($\pm$3\%) with \textit{GammaTune+}, while reducing performance variance. This makes \textit{GammaTune} a robust and efficient solution for real-world deployment.
arxiv情報
| 著者 | Aayush Gautam,Susav Shrestha,Narasimha Reddy |
| 発行日 | 2025-04-03 12:31:40+00:00 |
| arxivサイト | arxiv_id(pdf) |