Efficient LLM Inference on CPUs

要約

大規模言語モデル (LLM) は、幅広いタスクにわたって顕著なパフォーマンスと大きな可能性を実証してきました。
ただし、モデル パラメーターが天文学的な量に達し、大容量のメモリ容量と高いメモリ帯域幅が必要となるため、これらのモデルの導入は困難でした。
このペーパーでは、LLM の導入をより効率的に行うことができる効果的なアプローチを提案します。
自動 INT4 重みのみ量子化フローをサポートし、高度に最適化されたカーネルを備えた特別な LLM ランタイムを設計して、CPU での LLM 推論を高速化します。
Llama2、Llama、GPT-NeoX などの一般的な LLM に対するアプローチの一般的な適用性を実証し、CPU 上での極めて高い推論効率を示します。
コードは https://github.com/intel/intel-extension-for-transformers で公開されています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance and tremendous potential across a wide range of tasks. However, deploying these models has been challenging due to the astronomical amount of model parameters, which requires a demand for large memory capacity and high memory bandwidth. In this paper, we propose an effective approach that can make the deployment of LLMs more efficiently. We support an automatic INT4 weight-only quantization flow and design a special LLM runtime with highly-optimized kernels to accelerate the LLM inference on CPUs. We demonstrate the general applicability of our approach on popular LLMs including Llama2, Llama, GPT-NeoX, and showcase the extreme inference efficiency on CPUs. The code is publicly available at: https://github.com/intel/intel-extension-for-transformers.

arxiv情報

著者 Haihao Shen,Hanwen Chang,Bo Dong,Yu Luo,Hengyu Meng
発行日 2023-11-01 13:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク