Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge

要約

大規模言語モデル (LLM) は、自動回帰デコードの要件と最新の GPU の設計との間の不一致により、効率が低いという問題があります。
具体的には、計算のために数十億から数兆のパラメータを限られたメモリ帯域幅を通じて GPU キャッシュにロードする必要がありますが、実際に計算されるのはトークンの小さなバッチだけです。
その結果、GPU は計算ではなくメモリ転送にほとんどの時間を費やします。
最近、投機的復号化アルゴリズムの一種である並列復号化が普及しており、生成効率の大幅な向上が実証されています。
大規模なモデルに追加のデコード ヘッドを導入し、後続の複数のトークンを同時に予測し、単一のデコード ステップでこれらの候補の継続を検証できるようにします。
ただし、このアプローチは、事前トレーニング中に使用される次のトークン予測のトレーニング目的から逸脱し、候補トークンのヒット率が低くなります。
この論文では、逐次知識を並列復号プロセスに統合する新しい投機的復号アルゴリズム Clover を提案します。
この機能強化により、投機者のヒット率が向上し、全体的な効率が向上します。
Clover は、事前に推測されたトークンからの逐次的な知識を回帰接続経由で送信し、その後、アテンション デコーダーを使用してこれらの推測されたトークンを統合します。
さらに、Clover には、次のトークンの予測ではなく投機的生成の目的に合わせて隠れた状態を変更する拡張ブロックが組み込まれています。
実験結果は、Clover が Baichuan-Small でベースラインを最大 91%、Baichuan-Large で 146% 上回っており、Baichuan-Large で以前は最高のパフォーマンスを示していた Medusa のパフォーマンスを最大 37% 上回っていることを示しています。
Baichuan-Large ではそれぞれ小と 57%。

要約(オリジナル)

Large language models (LLMs) suffer from low efficiency as the mismatch between the requirement of auto-regressive decoding and the design of most contemporary GPUs. Specifically, billions to trillions of parameters must be loaded to the GPU cache through its limited memory bandwidth for computation, but only a small batch of tokens is actually computed. Consequently, the GPU spends most of its time on memory transfer instead of computation. Recently, parallel decoding, a type of speculative decoding algorithms, is becoming more popular and has demonstrated impressive efficiency improvement in generation. It introduces extra decoding heads to large models, enabling them to predict multiple subsequent tokens simultaneously and verify these candidate continuations in a single decoding step. However, this approach deviates from the training objective of next token prediction used during pre-training, resulting in a low hit rate for candidate tokens. In this paper, we propose a new speculative decoding algorithm, Clover, which integrates sequential knowledge into the parallel decoding process. This enhancement improves the hit rate of speculators and thus boosts the overall efficiency. Clover transmits the sequential knowledge from pre-speculated tokens via the Regressive Connection, then employs an Attention Decoder to integrate these speculated tokens. Additionally, Clover incorporates an Augmenting Block that modifies the hidden states to better align with the purpose of speculative generation rather than next token prediction. The experiment results demonstrate that Clover outperforms the baseline by up to 91% on Baichuan-Small and 146% on Baichuan-Large, respectively, and exceeds the performance of the previously top-performing method, Medusa, by up to 37% on Baichuan-Small and 57% on Baichuan-Large, respectively.

arxiv情報

著者 Bin Xiao,Chunan Shi,Xiaonan Nie,Fan Yang,Xiangwei Deng,Lei Su,Weipeng Chen,Bin Cui
発行日 2024-05-01 00:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク