NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention

要約

中央処理装置(CPU)上の大規模言語モデル推論は、注目計算における高価なMAD(Multiply-Add)行列演算の膨大な量のために困難である。本論文では、最新のCPUにはSIMD(Single-Instruction-Multiple-Data)レジスタという、超低遅延なバッチ検索を可能にする稀有な宝が存在することを主張する。我々は、このCPUのユニークな機能を活用し、MAD演算をレジスタ内ルックアップに置き換える効率的なアテンションアルゴリズムであるNoMAD-Attentionを提案する。ハードウェアを意識したアルゴリズム設計により、NoMAD-Attentionは、SIMDレジスタのサイズが非常に限られているにもかかわらず、SIMDレジスタへの高速アクセスを繰り返すことでアテンションスコアの計算を実現する。さらに、NoMAD-Attentionはモデルの微調整なしに、事前に訓練された注意ベースのLLMで動作する。実証的な評価により、NoMAD-Attentionは元のLLMの品質をよく維持し、4ビット量子化LLaMA-7Bベースのモデルを16kコンテキスト長で最大2$times$高速化することが実証された。我々の結果はhttps://github.com/tonyzhang617/nomad-dist。

要約(オリジナル)

Large language model inference on Central Processing Units (CPU) is challenging due to the vast quantities of expensive Multiply-Add (MAD) matrix operations in the attention computations. In this paper, we argue that there is a rare gem in modern CPUs, Single-Instruction-Multiple-Data (SIMD) registers, which allow for ultra-low-latency lookups in batch. We leverage this unique capability of CPUs to propose NoMAD-Attention, an efficient attention algorithm that replaces MAD operations with in-register lookups. Through hardware-aware algorithmic designs, NoMAD-Attention achieves the computation of attention scores using repeated fast accesses to SIMD registers despite their highly limited sizes. Moreover, NoMAD-Attention works with pre-trained attention-based LLMs without model finetuning. Empirical evaluations demonstrate that NoMAD-Attention maintains the quality of the original LLMs well, and speeds up the 4-bit quantized LLaMA-7B-based model by up to 2$\times$ at 16k context length. Our results are reproducible at https://github.com/tonyzhang617/nomad-dist.

arxiv情報

著者 Tianyi Zhang,Jonah Wonkyu Yi,Bowen Yao,Zhaozhuo Xu,Anshumali Shrivastava
発行日 2024-03-02 17:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク