要約
精度を維持しながら、大規模な言語モデルを量子化するにはどうすればよいですか?
量子化は、大規模な言語モデル(LLM)を効率的に展開するために不可欠です。
バイナリコーディング量子化(BCQ)および均一な量子化(UQ)は、それぞれ強力な表現性と最適化を備えた有望な量子化スキームです。
ただし、どちらのスキームも両方の利点を活用していません。
この論文では、LLMSの正確な量子化方法であるUniquanf(柔軟なマッピングを備えた統一量子化)を提案します。
Uniquanfは、UQの柔軟なマッピング技術とBCQの不均一な量子化レベルを統合することにより、強力な表現性と最適化の両方を活用しています。
Uniquanfのパラメーターを正確に最適化するために、統一された初期化とローカルおよび定期的なマッピング手法を提案します。
最適化後、統一定理は計算とメモリのオーバーヘッドを削除し、統一によって誘導される追加の展開コストなしにUniquanfの優れた精度を利用することができます。
実験結果は、Uniquanfが既存のUQおよびBCQメソッドよりも優れており、GSM8Kベンチマークで最大4.60%高い精度を達成することを示しています。
要約(オリジナル)
How can we quantize large language models while preserving accuracy? Quantization is essential for deploying large language models (LLMs) efficiently. Binary-coding quantization (BCQ) and uniform quantization (UQ) are promising quantization schemes that have strong expressiveness and optimizability, respectively. However, neither scheme leverages both advantages. In this paper, we propose UniQuanF (Unified Quantization with Flexible Mapping), an accurate quantization method for LLMs. UniQuanF harnesses both strong expressiveness and optimizability by unifying the flexible mapping technique in UQ and non-uniform quantization levels of BCQ. We propose unified initialization, and local and periodic mapping techniques to optimize the parameters in UniQuanF precisely. After optimization, our unification theorem removes computational and memory overhead, allowing us to utilize the superior accuracy of UniQuanF without extra deployment costs induced by the unification. Experimental results demonstrate that UniQuanF outperforms existing UQ and BCQ methods, achieving up to 4.60% higher accuracy on GSM8K benchmark.
arxiv情報
著者 | Seungcheol Park,Jeongin Bae,Beomseok Kwon,Minjun Kim,Byeongwook Kim,Se Jung Kwon,U Kang,Dongsoo Lee |
発行日 | 2025-06-16 16:25:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google