要約
大規模言語モデル (LLM) は、最近、さまざまな言語タスクにわたって顕著なパフォーマンスを実証しています。
しかし、その導入は多くの場合、実質的な計算要件とストレージ要件によって制約されます。
量子化は、この課題に対処するための重要な技術として登場し、パフォーマンスへの影響を最小限に抑えながら大規模なモデルの圧縮を可能にします。
最近の GPTQ アルゴリズム (ポストトレーニング量子化 (PTQ) 手法) は、LLM の圧縮に非常に効果的であることが証明されており、GPTQ をコア コンポーネントとして活用する研究の波を引き起こしています。
PTQ 環境における GPTQ の極めて重要な役割を認識し、パフォーマンスが向上した GPTQ のシンプルでスケーラブルな代替品である CDQuant を紹介します。
CDQuant は、座標降下法を使用してレイヤーごとの再構成損失を最小限に抑え、高品質の量子化された重みを実現します。
私たちのアルゴリズムは実装が簡単で、数千億のパラメータを持つモデルに効率的に拡張できます。
PaLM2 モデル ファミリの広範な評価を通じて、CDQuant がさまざまなモデル サイズと量子化レベルにわたって一貫して GPTQ を上回るパフォーマンスを示すことを実証しました。
特に、PaLM2-Otter の INT2 量子化では、CDQuant は GPTQ と比較してパープレキシティの 10% 削減を達成します。
要約(オリジナル)
Large language models (LLMs) have recently demonstrated remarkable performance across diverse language tasks. But their deployment is often constrained by their substantial computational and storage requirements. Quantization has emerged as a key technique for addressing this challenge, enabling the compression of large models with minimal impact on performance. The recent GPTQ algorithm, a post-training quantization (PTQ) method, has proven highly effective for compressing LLMs, sparking a wave of research that leverages GPTQ as a core component. Recognizing the pivotal role of GPTQ in the PTQ landscape, we introduce CDQuant, a simple and scalable alternative to GPTQ with improved performance. CDQuant uses coordinate descent to minimize the layer-wise reconstruction loss to achieve high-quality quantized weights. Our algorithm is easy to implement and scales efficiently to models with hundreds of billions of parameters. Through extensive evaluation on the PaLM2 model family, we demonstrate that CDQuant consistently outperforms GPTQ across diverse model sizes and quantization levels. In particular, for INT2 quantization of PaLM2-Otter, CDQuant achieves a 10% reduction in perplexity compared to GPTQ.
arxiv情報
著者 | Pranav Ajit Nair,Arun Sai Suggala |
発行日 | 2024-06-25 13:29:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google