Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration

要約

大規模言語モデル (LLM) は、最近、幅広いタスクにわたって顕著なパフォーマンスを示しています。
ただし、LLM のパラメーターの数がかなり多いため、モデル推論中に大幅な待ち時間が発生します。
これは、単一の転送プロセスで 1 つのトークンを生成する自己回帰デコード方式を利用する場合に特に顕著であり、そのため GPU の並列コンピューティング機能を十分に活用できません。
この論文では、新しい並列デコード手法、つまり \textit{hidden transfer} を提案します。これは、単一の順方向パスで複数の連続するトークンを同時にデコードします。
このアイデアは、以前のコンテキストの中間の隠れ状態を、将来生成されるトークンの \textit{pseudo} 隠れ状態に転送し、その後、疑似隠れ状態が次のトランスフォーマー層を通過することで、より多くの意味情報を同化し、優れた品質を達成することです。
将来のトークンの予測精度。
さらに、新しいツリー アテンション メカニズムを使用して、出力シーケンスの複数の候補を同時に生成および検証します。これにより、ロスレス生成が保証され、メソッドの生成効率がさらに向上します。
実験により、私たちの方法の有効性が実証されました。
私たちはモチベーションを証明するために多くの分析実験を実施します。
加速メトリクスの点では、Medusa や Self-Speculative Decoding を含むすべての単一モデル アクセラレーション手法を上回ります。

要約(オリジナル)

Large language models (LLMs) have recently shown remarkable performance across a wide range of tasks. However, the substantial number of parameters in LLMs contributes to significant latency during model inference. This is particularly evident when utilizing autoregressive decoding methods, which generate one token in a single forward process, thereby not fully capitalizing on the parallel computing capabilities of GPUs. In this paper, we propose a novel parallel decoding approach, namely \textit{hidden transfer}, which decodes multiple successive tokens simultaneously in a single forward pass. The idea is to transfer the intermediate hidden states of the previous context to the \textit{pseudo} hidden states of the future tokens to be generated, and then the pseudo hidden states will pass the following transformer layers thereby assimilating more semantic information and achieving superior predictive accuracy of the future tokens. Besides, we use the novel tree attention mechanism to simultaneously generate and verify multiple candidates of output sequences, which ensure the lossless generation and further improves the generation efficiency of our method. Experiments demonstrate the effectiveness of our method. We conduct a lot of analytic experiments to prove our motivation. In terms of acceleration metrics, we outperform all the single-model acceleration techniques, including Medusa and Self-Speculative decoding.

arxiv情報

著者 Pengfei Wu,Jiahao Liu,Zhuocheng Gong,Qifan Wang,Jinpeng Li,Jingang Wang,Xunliang Cai,Dongyan Zhao
発行日 2024-04-18 09:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク