BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

要約

事前トレーニングされた大規模言語モデル (LLM) は、優れた一般言語処理能力を示しますが、メモリと計算リソースに多大な要求を伴います。
強力な圧縮テクノロジである 2 値化により、モデルの重みをわずか 1 ビットまで大幅に削減でき、高価な計算とメモリの要件が軽減されます。
ただし、既存の量子化技術では、超低ビット幅下で LLM パフォーマンスを維持するには不十分です。
この課題に応えて、事前トレーニング済み LLM 向けに調整された画期的な 1 ビット ポストトレーニング量子化スキームである BiLLM を紹介します。
BiLLM は、LLM の重み分布に基づいて、まず顕著な重みを特定して構造的に選択し、効果的なバイナリ残差近似戦略を通じて圧縮損失を最小限に抑えます。
さらに、非突出重みの釣鐘型分布を考慮して、それらを正確にグループ化して二値化するための最適な分割探索を提案します。
BiLLM は、さまざまな LLM ファミリおよび評価メトリックにわたってわずか 1.08 ビットの重みで高精度の推論 (例: LLaMA2-70B の 8.41 パープレキシティ) を初めて達成し、LLM の SOTA 量子化手法を大幅に上回りました。
さらに、BiLLM は 70 億重みの LLM の 2 値化処理を 1 つの GPU で 0.5 時間以内に実行でき、十分な時間効率を示します。
コードは https://github.com/Aaronhuang-778/BiLLM で入手できます。

要約(オリジナル)

Pretrained large language models (LLMs) exhibit exceptional general language processing capabilities but come with significant demands on memory and computational resources. As a powerful compression technology, binarization can extremely reduce model weights to a mere 1 bit, lowering the expensive computation and memory requirements. However, existing quantization techniques fall short of maintaining LLM performance under ultra-low bit-widths. In response to this challenge, we present BiLLM, a groundbreaking 1-bit post-training quantization scheme tailored for pretrained LLMs. Based on the weight distribution of LLMs, BiLLM first identifies and structurally selects salient weights, and minimizes the compression loss through an effective binary residual approximation strategy. Moreover, considering the bell-shaped distribution of the non-salient weights, we propose an optimal splitting search to group and binarize them accurately. BiLLM achieving for the first time high-accuracy inference (e.g. 8.41 perplexity on LLaMA2-70B) with only 1.08-bit weights across various LLMs families and evaluation metrics, outperforms SOTA quantization methods of LLM by significant margins. Moreover, BiLLM enables the binarization process of the LLM with 7 billion weights within 0.5 hours on a single GPU, demonstrating satisfactory time efficiency. Our code is available at https://github.com/Aaronhuang-778/BiLLM.

arxiv情報

著者 Wei Huang,Yangdong Liu,Haotong Qin,Ying Li,Shiming Zhang,Xianglong Liu,Michele Magno,Xiaojuan Qi
発行日 2024-05-15 13:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク