Adaptive Draft-Verification for Efficient Large Language Model Decoding

要約

大規模言語モデル (LLM) のデコードには、特定のコンテキストに基づいて一連のトークンを生成することが含まれます。各トークンは、モデルの学習された確率を使用して一度に 1 つずつ予測されます。
一般的な自己回帰デコード方法では、生成されたトークンごとにモデルを通過する個別のフォワード パスが必要ですが、これは計算効率が悪く、遅延に敏感なシナリオで LLM を展開する際に課題が生じます。
現在のデコード方法の主な制限は、その非効率性とリソース要求に起因しています。
既存のアプローチでは、より小さなモデルを微調整する必要があり、リソースを大量に消費するか、固定の取得スキームに依存して次のトークンのドラフトを構築する必要がありますが、適応性に欠け、さまざまなモデルやコンテキスト間で一般化できません。
これらの問題に対処するために、微調整を必要とせずに LLM デコードを高速化する ADED と呼ばれる新しい方法論を導入します。
私たちのアプローチには、効率を向上させるために時間の経過とともに進化する適応型ドラフト検証プロセスが含まれます。
トライグラム行列ベースの LLM 表現を利用して LLM の出力分布を動的に近似し、デコード プロセス中に変化するトークン確率にモデルを調整できるようにします。
さらに、探索と活用のバランスを効果的にとるドラフト構築メカニズムを実装し、生成されるドラフトが多様であり、LLM の真の出力分布に近いものであることを保証します。
この設計の重要性は、ドラフト分布を適応的に最適化し、より高速かつ正確なデコードを実現できることにあります。
さまざまなベンチマーク データセットと LLM アーキテクチャに関する広範な実験を通じて、ADED が高精度を維持しながらデコード プロセスを大幅に高速化し、幅広い実用的なアプリケーションへの導入に適していることを実証しました。

要約(オリジナル)

Large language model (LLM) decoding involves generating a sequence of tokens based on a given context, where each token is predicted one at a time using the model’s learned probabilities. The typical autoregressive decoding method requires a separate forward pass through the model for each token generated, which is computationally inefficient and poses challenges for deploying LLMs in latency-sensitive scenarios. The main limitations of current decoding methods stem from their inefficiencies and resource demands. Existing approaches either necessitate fine-tuning smaller models, which is resource-intensive, or rely on fixed retrieval schemes to construct drafts for the next tokens, which lack adaptability and fail to generalize across different models and contexts. To address these issues, we introduce a novel methodology called ADED, which accelerates LLM decoding without requiring fine-tuning. Our approach involves an adaptive draft-verification process that evolves over time to improve efficiency. We utilize a tri-gram matrix-based LLM representation to dynamically approximate the output distribution of the LLM, allowing the model to adjust to changing token probabilities during the decoding process. Additionally, we implement a draft construction mechanism that effectively balances exploration and exploitation, ensuring that the drafts generated are both diverse and close to the true output distribution of the LLM. The importance of this design lies in its ability to optimize the draft distribution adaptively, leading to faster and more accurate decoding. Through extensive experiments on various benchmark datasets and LLM architectures, we demonstrate that ADED significantly accelerates the decoding process while maintaining high accuracy, making it suitable for deployment in a wide range of practical applications.

arxiv情報

著者 Xukun Liu,Bowen Lei,Ruqi Zhang,Dongkuan Xu
発行日 2024-08-19 15:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク