Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

要約

投機的デコーディング(SD)は、ターゲットモデルとの厳密な分布的等価性を強制するため、多くの場合、ほぼ等価な分布が同等の結果を達成するため、スピードアップの可能性が制限されます。さらに、分布の等価性を強制することは、ユーザが推論速度のさらなる向上のためにターゲットモデルの分布からの逸脱を交換できないことを意味する。これらの限界に対処するために、我々はファジィ投機的復号化(FSD)を導入する。これは、ターゲットとドラフトモデル分布間の乖離に基づいて純粋に候補トークンを受け入れることにより、SDを一般化した復号化アルゴリズムである。ターゲットモデルからの乖離を制御できるようにすることで、FSDは生成品質と推論速度を柔軟に交換することを可能にする。いくつかのベンチマークにおいて、我々の手法はSDよりも1秒あたり5トークン以上速く、ベンチマークの精度を約2%しか低下させないという、大幅な実行時間の改善を達成することができた。多くの場合、FSDは1秒あたり2トークン以上速くSDベンチマークの精度に匹敵することさえでき、目標モデルの性能を維持するために分布の等価性が必要ないことを実証している。

要約(オリジナル)

Speculative Decoding (SD) enforces strict distributional equivalence to the target model, limiting potential speed ups as distributions of near-equivalence achieve comparable outcomes in many cases. Furthermore, enforcing distributional equivalence means that users are unable to trade deviations from the target model distribution for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) – a decoding algorithm that generalizes SD by accepting candidate tokens purely based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance.

arxiv情報

著者 Maximilian Holsman,Yukun Huang,Bhuwan Dhingra
発行日 2025-03-03 17:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク