A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms

要約

大規模言語モデル (LLM) は、自然言語処理において目覚ましい進歩を遂げ、さまざまなタスクにわたって優れたパフォーマンスを示しています。
ただし、高価なメモリと計算要件により、実際の導入には大きな課題が生じます。
低ビット量子化は、モデル パラメーター、アクティベーション、および勾配のビット幅を削減することでこれらの課題を軽減する重要なアプローチとして浮上し、メモリ使用量と計算需要を削減します。
このペーパーでは、基本原理、システム実装、アルゴリズム戦略をカバーする、LLM に合わせた低ビット量子化手法の包括的な調査を示します。
まず、低ビット LLM に特有の基本概念と新しいデータ形式の概要が紹介され、続いて、さまざまなハードウェア プラットフォームで低ビット LLM を容易にするフレームワークとシステムがレビューされます。
次に、LLM の効率的な低ビット トレーニングと推論のための手法とツールキットを分類して分析します。
最後に、低ビット LLM の将来の傾向と潜在的な進歩について説明します。
基本、システム、アルゴリズムの観点からの体系的な概要は、低ビット量子化を通じて LLM の効率と適用性を強化する将来の取り組みのための貴重な洞察とガイドラインを提供します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable advancements in natural language processing, showcasing exceptional performance across various tasks. However, the expensive memory and computational requirements present significant challenges for their practical deployment. Low-bit quantization has emerged as a critical approach to mitigate these challenges by reducing the bit-width of model parameters, activations, and gradients, thus decreasing memory usage and computational demands. This paper presents a comprehensive survey of low-bit quantization methods tailored for LLMs, covering the fundamental principles, system implementations, and algorithmic strategies. An overview of basic concepts and new data formats specific to low-bit LLMs is first introduced, followed by a review of frameworks and systems that facilitate low-bit LLMs across various hardware platforms. Then, we categorize and analyze techniques and toolkits for efficient low-bit training and inference of LLMs. Finally, we conclude with a discussion of future trends and potential advancements of low-bit LLMs. Our systematic overview from basic, system, and algorithm perspectives can offer valuable insights and guidelines for future works to enhance the efficiency and applicability of LLMs through low-bit quantization.

arxiv情報

著者 Ruihao Gong,Yifu Ding,Zining Wang,Chengtao Lv,Xingyu Zheng,Jinyang Du,Haotong Qin,Jinyang Guo,Michele Magno,Xianglong Liu
発行日 2024-09-30 12:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク