QIGen: Generating Efficient Kernels for Quantized Inference on Large Language Models

要約

既製の CPU 上の LLaMA や OPT などの LLM で量子化された生成推論をサポートするための、新しい自動コード生成アプローチに関する進行中の作業を紹介します。
私たちのアプローチは、ハードウェア特性とメソッド固有の精度制約の両方を含むターゲット アーキテクチャとパフォーマンス モデルによって情報化されます。
LLaMA モデルの CPU ベースの推論の結果は、私たちのアプローチが高性能と高精度をもたらし、既存の最高のオープンソース ソリューションと比べても遜色ないことを示しています。
暫定実装は https://github.com/IST-DASLab/QIGen で入手できます。

要約(オリジナル)

We present ongoing work on a new automatic code generation approach for supporting quantized generative inference on LLMs such as LLaMA or OPT on off-the-shelf CPUs. Our approach is informed by the target architecture and a performance model, including both hardware characteristics and method-specific accuracy constraints. Results on CPU-based inference for LLaMA models show that our approach can lead to high performance and high accuracy, comparing favorably to the best existing open-source solution. A preliminary implementation is available at https://github.com/IST-DASLab/QIGen.

arxiv情報

著者 Tommaso Pegolotti,Elias Frantar,Dan Alistarh,Markus Püschel
発行日 2023-07-07 17:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.PF パーマリンク