要約
トレーニング後の量子化(PTQ)は、リソースの需要を大幅に削減することにより、リソース制限設定内で大規模な言語モデル(LLM)を展開するために極めて重要です。
ただし、既存のPTQ戦略は、量子化された重みと元の重みの間に有意差があるため、低ビットレベル<3ビットでパフォーマンスを低下させています。
低ビット幅での量子化パフォーマンスを強化するために、混合精度グラフニューラルPTQ(MG-PTQ)アプローチを導入し、グラフニューラルネットワーク(GNN)モジュールを使用して、重みの依存性をキャプチャし、量子化ビット幅を適応的に割り当てます。
GNNモジュールの情報伝播を通じて、この方法はターゲットの重みの間でより効果的に依存関係を捉え、体重の重要性のより正確な評価と量子化戦略の最適な割り当てをもたらします。
Wikitext2およびC4データセットでの広範な実験は、MG-PTQメソッドが以前の最先端のPTQメソッドGPTQを上回り、低ビット条件下での量子化パフォーマンスの新しいベンチマークを設定することを示しています。
要約(オリジナル)
Post-Training Quantization (PTQ) is pivotal for deploying large language models (LLMs) within resource-limited settings by significantly reducing resource demands. However, existing PTQ strategies underperform at low bit levels < 3 bits due to the significant difference between the quantized and original weights. To enhance the quantization performance at low bit widths, we introduce a Mixed-precision Graph Neural PTQ (MG-PTQ) approach, employing a graph neural network (GNN) module to capture dependencies among weights and adaptively assign quantization bit-widths. Through the information propagation of the GNN module, our method more effectively captures dependencies among target weights, leading to a more accurate assessment of weight importance and optimized allocation of quantization strategies. Extensive experiments on the WikiText2 and C4 datasets demonstrate that our MG-PTQ method outperforms previous state-of-the-art PTQ method GPTQ, setting new benchmarks for quantization performance under low-bit conditions.
arxiv情報
著者 | Wanlong Liu,Yichen Xiao,Dingyi Zeng,Hongyang Zhao,Wenyu Chen,Malu Zhang |
発行日 | 2025-01-30 05:39:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google