EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models

要約

投機的デコードは、大規模言語モデル (LLM) の推論速度を向上させるための極めて重要な技術として登場しました。
予測効率の向上を目的とした最近の研究にもかかわらず、検証フェーズのバッチ内で受け入れられるトークンの数が異なるため、マルチサンプルの投機的デコードは見落とされてきました。
バニラの方法では、新しいトークンの数がサンプル間で一貫していることを保証するために、パディング トークンを追加します。
ただし、これにより計算およびメモリ アクセスのオーバーヘッドが増加するため、高速化率が低下します。
メモリやコンピューティングのオーバーヘッドを増加させることなく、異なるサンプルによって受け入れられるトークンの一貫性がない問題を解決できる新しい方法を提案します。
さらに、私たちが提案する方法は、パディングトークンを追加することなく、異なるサンプルの予測トークンが一致しない状況に対処できます。
十分な実験により、私たちの方法の有効性が実証されています。
私たちのコードは https://github.com/niyunsheng/EMS-SD で入手できます。

要約(オリジナル)

Speculative decoding emerges as a pivotal technique for enhancing the inference speed of Large Language Models (LLMs). Despite recent research aiming to improve prediction efficiency, multi-sample speculative decoding has been overlooked due to varying numbers of accepted tokens within a batch in the verification phase. Vanilla method adds padding tokens in order to ensure that the number of new tokens remains consistent across samples. However, this increases the computational and memory access overhead, thereby reducing the speedup ratio. We propose a novel method that can resolve the issue of inconsistent tokens accepted by different samples without necessitating an increase in memory or computing overhead. Furthermore, our proposed method can handle the situation where the prediction tokens of different samples are inconsistent without the need to add padding tokens. Sufficient experiments demonstrate the efficacy of our method. Our code is available at https://github.com/niyunsheng/EMS-SD.

arxiv情報

著者 Yunsheng Ni,Chuanjian Liu,Yehui Tang,Kai Han,Yunhe Wang
発行日 2024-05-13 08:24:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク