要約
投機的デコード (SD) は、LLM 推論の大幅な高速化を実現できるため、研究で大きな注目を集めています。
ただし、高速化が実現しているにもかかわらず、投機的デコード方法は、多くの場合、ハイエンド デバイス上で、またはかなりの GPU メモリ オーバーヘッドを使用して最適なパフォーマンスを達成します。
限られたメモリと量子化の必要性を考慮すると、ハイエンド GPU 上の高性能モデルでは速度が最大 7 倍低下する可能性があります。
この目的を達成するために、我々は、同時マルチトークン復号化と中間層スキッピングに基づく費用対効果の高い自己投機的 SD 手法である Skippy 同時投機的復号化 (または S3D) を提案します。
最近の効果的なオープンソース SD システムと比較した場合、私たちの方法は、アーキテクチャの変更とトレーニング データを最小限に抑えながら、最高のパフォーマンスとメモリの比率を達成しました。
メモリ効率を活用して、Phi-3 に基づいて、より小型でありながらより効果的な SD モデルを作成しました。
量子化された EAGLE モデルよりも 1.4 ~ 2 倍高速で、使用する VRAM が少なくても半精度で動作します。
要約(オリジナル)
Speculative decoding (SD) has attracted a significant amount of research attention due to the substantial speedup it can achieve for LLM inference. However, despite the high speedups they offer, speculative decoding methods often achieve optimal performance on high-end devices or with a substantial GPU memory overhead. Given limited memory and the necessity of quantization, a high-performing model on a high-end GPU can slow down by up to 7 times. To this end, we propose Skippy Simultaneous Speculative Decoding (or S3D), a cost-effective self-speculative SD method based on simultaneous multi-token decoding and mid-layer skipping. When compared against recent effective open-source SD systems, our method has achieved one of the top performance-memory ratios while requiring minimal architecture changes and training data. Leveraging our memory efficiency, we created a smaller yet more effective SD model based on Phi-3. It is 1.4 to 2 times faster than the quantized EAGLE model and operates in half-precision while using less VRAM.
arxiv情報
著者 | Wei Zhong,Manasa Bharadwaj |
発行日 | 2024-05-30 17:54:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google