1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs

要約

BitNet や BitNet b1.58 などの 1 ビットラージ言語モデル (LLM) の最近の進歩は、速度とエネルギー消費の点で LLM の効率を向上させる有望なアプローチを示しています。
これらの開発により、広範囲のデバイスにわたるローカル LLM 展開も可能になります。
この作業では、1 ビット LLM の可能性を最大限に引き出すように設計されたカスタマイズされたソフトウェア スタックである bitnet.cpp を紹介します。
具体的には、CPU 上の 3 値 BitNet b1.58 LLM の高速かつロスレス推論をサポートするカーネルのセットを開発します。
広範な実験により、bitnet.cpp はさまざまなモデル サイズにわたって、x86 CPU では 2.37 倍から 6.17 倍、ARM CPU では 1.37 倍から 5.07 倍の大幅な高速化が達成されることが実証されています。
コードは https://github.com/microsoft/BitNet で入手できます。

要約(オリジナル)

Recent advances in 1-bit Large Language Models (LLMs), such as BitNet and BitNet b1.58, present a promising approach to enhancing the efficiency of LLMs in terms of speed and energy consumption. These developments also enable local LLM deployment across a broad range of devices. In this work, we introduce bitnet.cpp, a tailored software stack designed to unlock the full potential of 1-bit LLMs. Specifically, we develop a set of kernels to support fast and lossless inference of ternary BitNet b1.58 LLMs on CPUs. Extensive experiments demonstrate that bitnet.cpp achieves significant speedups, ranging from 2.37x to 6.17x on x86 CPUs and from 1.37x to 5.07x on ARM CPUs, across various model sizes. The code is available at https://github.com/microsoft/BitNet.

arxiv情報

著者 Jinheng Wang,Hansong Zhou,Ting Song,Shaoguang Mao,Shuming Ma,Hongyu Wang,Yan Xia,Furu Wei
発行日 2024-10-23 11:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク