Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

要約

投機的デコード(SD)は、ターゲットモデルとの厳密な分布の等価性を施行し、潜在的なスピードアップをほぼ同等の分布として制限し、多くの場合、同等の結果を達成します。
さらに、分布の等価性を実施することは、ユーザーがターゲットモデル分布からの逸脱を、さらなる推論速度の向上のために取引することができないことを意味します。
これらの制限に対処するために、Fuzzy投機的デコード(FSD)を導入します。これは、ターゲットモデルの分布とドラフトモデルの分布の間の発散に純粋に基づいて候補トークンを受け入れることによりSDを一般化するデコードアルゴリズムです。
ターゲットモデルからの制御された発散を可能にすることにより、FSDはユーザーが推論速度のために生成品質を柔軟に取引することを可能にします。
いくつかのベンチマークにわたって、当社の方法は、ベンチマーク精度が約2%の絶対的な減少で、SDよりも速い5トークを超えるトークンの大幅なランタイム改善を実現することができます。
多くの場合、FSDはSDベンチマークの精度を1秒あたり2トークンを超えるより速く一致させることができ、ターゲットモデルのパフォーマンスを維持するために分布の等価性が必要ないことを示しています。

要約(オリジナル)

Speculative Decoding (SD) enforces strict distributional equivalence to the target model, limiting potential speed ups as distributions of near-equivalence achieve comparable outcomes in many cases. Furthermore, enforcing distributional equivalence means that users are unable to trade deviations from the target model distribution for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) – a decoding algorithm that generalizes SD by accepting candidate tokens purely based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance.

arxiv情報

著者 Maximilian Holsman,Yukun Huang,Bhuwan Dhingra
発行日 2025-03-04 15:30:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク