When Quantization Affects Confidence of Large Language Models?

要約

最近の研究では、トレーニング後の量子化または低ビット重み表現による大規模言語モデル (LLM) の効果的な圧縮技術が導入されました。
量子化された重みによりストレージ効率が向上し、より高速な推論が可能になりますが、既存の研究では、量子化によりパフォーマンスが低下し、LLM のバイアスが悪化する可能性があることが示されています。
この研究では、言語モデルのタイプやスケールなどの要因を量子化損失の要因として考慮して、量子化モデルの信頼性と校正を調査します。
まず、GPTQ で 4 ビットに量子化すると、真のラベルに関する信頼性が低下し、異なる言語モデル間でさまざまな影響が観察されることを明らかにします。
第二に、さまざまなスケールにわたる信頼性への影響の変動を観察します。
最後に、信頼レベルに基づいた量子化損失の説明を提案します。これは、完全なモデルが最初から低い信頼レベルを示したサンプルに量子化が不均衡な影響を与えることを示しています。

要約(オリジナル)

Recent studies introduced effective compression techniques for Large Language Models (LLMs) via post-training quantization or low-bit weight representation. Although quantized weights offer storage efficiency and allow for faster inference, existing works have indicated that quantization might compromise performance and exacerbate biases in LLMs. This study investigates the confidence and calibration of quantized models, considering factors such as language model type and scale as contributors to quantization loss. Firstly, we reveal that quantization with GPTQ to 4-bit results in a decrease in confidence regarding true labels, with varying impacts observed among different language models. Secondly, we observe fluctuations in the impact on confidence across different scales. Finally, we propose an explanation for quantization loss based on confidence levels, indicating that quantization disproportionately affects samples where the full model exhibited low confidence levels in the first place.

arxiv情報

著者 Irina Proskurina,Luc Brun,Guillaume Metzler,Julien Velcin
発行日 2024-05-01 16:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク