要約
Large Language Models~(LLM) は優れたパフォーマンスにもかかわらず、展開と使用に大量の計算リソースを必要とします。
この問題を克服するために、量子化手法が広く適用され、LLM のメモリ使用量を削減し、推論速度を向上させてきました。
ただし、大きな課題は、低ビット量子化方法がパフォーマンスの低下につながることが多いことです。
量子化が LLM の容量にどのような影響を与えるかを理解することが重要です。
全体的なパフォーマンスに焦点を当てたこれまでの研究とは異なり、この研究は、LLM を小さな言語モデルから区別する重要な特性である \emph{創発能力} に対する量子化の影響を調査することを目的としています。
特に、量子化 LLM におけるコンテキスト内学習、思考連鎖推論、命令追従の能力を調べます。
私たちの実証実験では、これらの新たな能力が 4 ビット量子化モデルには依然として存在する一方、2 ビット モデルではこれらの能力のテストで深刻なパフォーマンス低下が発生することが示されています。
低ビット モデルのパフォーマンスを向上させるために、2 つの特別な実験を実施します。(1) どのコンポーネント (または部分構造) が量子化の影響をより受けやすいかを調査するファインゲイン影響分析、および (2) モデルの微調整によるパフォーマンス補償。
私たちの研究は、創発的な能力に対する量子化の影響を理解するための一連の重要な発見を導き出し、LLM の極低ビット量子化の可能性を明らかにします。
要約(オリジナル)
Despite the superior performance, Large Language Models~(LLMs) require significant computational resources for deployment and use. To overcome this issue, quantization methods have been widely applied to reduce the memory footprint of LLMs as well as increasing the inference rate. However, a major challenge is that low-bit quantization methods often lead to performance degradation. It is important to understand how quantization impacts the capacity of LLMs. Different from previous studies focused on overall performance, this work aims to investigate the impact of quantization on \emph{emergent abilities}, which are important characteristics that distinguish LLMs from small language models. Specially, we examine the abilities of in-context learning, chain-of-thought reasoning, and instruction-following in quantized LLMs. Our empirical experiments show that these emergent abilities still exist in 4-bit quantization models, while 2-bit models encounter severe performance degradation on the test of these abilities. To improve the performance of low-bit models, we conduct two special experiments: (1) fine-gained impact analysis that studies which components (or substructures) are more sensitive to quantization, and (2) performance compensation through model fine-tuning. Our work derives a series of important findings to understand the impact of quantization on emergent abilities, and sheds lights on the possibilities of extremely low-bit quantization for LLMs.
arxiv情報
著者 | Peiyu Liu,Zikang Liu,Ze-Feng Gao,Dawei Gao,Wayne Xin Zhao,Yaliang Li,Bolin Ding,Ji-Rong Wen |
発行日 | 2023-07-16 15:11:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google