要約
この論文では、元のデコードとまったく同じ出力を維持しながら、大規模言語モデル (LLM) での貪欲なデコードを高速化するアプローチである「予測パイプライン デコード (PPD)」について説明します。
従来の戦略とは異なり、PPD は追加の計算リソースを使用して、現在のトークンのデコード中に後続のトークンのデコードの開始を並列化します。
この方法は、デコード待ち時間を短縮し、LLM デコード戦略におけるトレードオフの理解を再構築します。
私たちは、計算とレイテンシの間のトレードオフを分析できる理論的フレームワークを開発しました。
このフレームワークを使用すると、p_correct として表される一致率の評価を通じて達成される、提案された方法に関連する潜在的なレイテンシの削減を分析的に推定できます。
この結果は、追加の計算リソースの使用により LLM デコードが高速化される可能性があることを示しています。
さらに、PPD を実装し、その有効性を実証的に検証するための予備実験を実施し、理論的分析ではカバーできない潜在的な実際的なオーバーヘッドに対処します。
要約(オリジナル)
This paper presents ‘Predictive Pipelined Decoding (PPD),’ an approach that speeds up greedy decoding in Large Language Models (LLMs) while maintaining the exact same output as the original decoding. Unlike conventional strategies, PPD employs additional compute resources to parallelize the initiation of subsequent token decoding during the current token decoding. This method reduces decoding latency and reshapes the understanding of trade-offs in LLM decoding strategies. We have developed a theoretical framework that allows us to analyze the trade-off between computation and latency. Using this framework, we can analytically estimate the potential reduction in latency associated with our proposed method, achieved through the assessment of the match rate, represented as p_correct. The results demonstrate that the use of extra computational resources has the potential to accelerate LLM decoding. Additionally, we implement PPD and conduct preliminary experiments to empirically validate its efficacy, addressing potential practical overheads not covered by theoretical analysis.
arxiv情報
著者 | Seongjun Yang,Gibbeum Lee,Jaewoong Cho,Dimitris Papailiopoulos,Kangwook Lee |
発行日 | 2024-07-29 04:03:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google