SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens

要約

我々は、セマンティック アダプティブ トークン (SDSAT) を使用した投機的デコーディングによる大規模言語モデル (LLM) の高速化スキームを提案します。
この設計の主な目的は、モデルの精度を損なうことなく、ドラフト トークンをより正確に生成する LLM モデルの機能を強化することです。
中核となる戦略には以下が含まれます。 1) 構造を変更せずに柔軟なデコード機能を備えたセマンティック適応トークンを組み込むことでモデルを微調整し、高品質のドラフト トークンを生成できるようにします。
2) 標準トークンに影響を与えないトレーニング方法を採用することで、モデルは最小限のトレーニング オーバーヘッドで元のフレームワーク上で並列デコード能力を獲得できます。
3) 貪欲探索と核サンプリングの両方を使用して、「2 段階のドラフト、その後、検証」生成戦略を設計しました。
CodeLlama-13B モデルと 7B モデルで行われた実験では、それぞれ 3.5 倍と 3.0 倍以上の速度向上が得られました。
https://github.com/hasuoshenyun/SDSAT を参照してください。

要約(オリジナル)

We propose an acceleration scheme for large language models (LLMs) through Speculative Decoding with Semantic Adaptive Tokens (SDSAT). The primary objective of this design is to enhance the LLM model’s ability to generate draft tokens more accurately without compromising the model’s accuracy. The core strategies involve: 1) Fine-tune the model by incorporating semantic adaptive tokens that possess flexible decoding capabilities without changing its structure, allowing them to generate high-quality draft tokens. 2) By employing a training method that does not affect the standard tokens, the model can acquire parallel decoding abilities atop its original framework with minimal training overhead. 3) We have designed the ‘two-step-draft-then-verify’ generation strategies using both greedy search and nucleus sampling. Experiments conducted on the CodeLlama-13B and 7B models have yielded speed increases of over 3.5X and 3.0X, respectively. Please refer to https://github.com/hasuoshenyun/SDSAT.

arxiv情報

著者 Chengbo Liu,Yong Zhu
発行日 2024-03-27 14:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク