Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline

要約

大規模言語モデル (LLM) は AI 分野に革命をもたらし、さまざまなタスクにわたって前例のない能力を実証しました。
ただし、LLM の推論プロセスには多大な計算コストがかかります。
このペーパーでは、LLM の力を活用する効率的な LLM 推論パイプラインを提案します。
私たちのアプローチは、最小限のオーバーヘッドで応答の長さを正確に認識して予測する LLM の可能性を活用することから始まります。
この情報を活用することで、同様の応答長を持つクエリをマイクロバッチにグループ化する効率的なシーケンス スケジューリング手法を導入します。
LLaMA ベースのモデルを使用して、実世界の命令データセットに対するアプローチを評価しました。その結果、有効性を損なうことなく推論スループットが 86% 向上するという驚異的な結果が得られました。
特に、私たちの方法は他の推論加速技術と直交しているため、LLM 推論用の多くの既存のツールキット (FlashAttendant、Quantization など) への貴重な追加となります。

要約(オリジナル)

Large language models (LLMs) have revolutionized the field of AI, demonstrating unprecedented capacity across various tasks. However, the inference process for LLMs comes with significant computational costs. In this paper, we propose an efficient LLM inference pipeline that harnesses the power of LLMs. Our approach begins by tapping into the potential of LLMs to accurately perceive and predict the response length with minimal overhead. By leveraging this information, we introduce an efficient sequence scheduling technique that groups queries with similar response lengths into micro-batches. We evaluate our approach on real-world instruction datasets using the LLaMA-based model, and our results demonstrate an impressive 86% improvement in inference throughput without compromising effectiveness. Notably, our method is orthogonal to other inference acceleration techniques, making it a valuable addition to many existing toolkits (e.g., FlashAttention, Quantization) for LLM inference.

arxiv情報

著者 Zangwei Zheng,Xiaozhe Ren,Fuzhao Xue,Yang Luo,Xin Jiang,Yang You
発行日 2023-05-22 15:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク