要約
大規模な言語モデル(LLM)は、人工知能において極めて重要になり、推論、理解、および生成の強力な能力を示しています。
ただし、エッジデバイスでの展開は相当なサイズによって妨げられ、多くの場合数億パラメーターに達します。
量子化は、メモリの使用量と推論時間を短縮するために広く使用されている方法ですが、LLMSは、その活性化における外れ値の有病率のために独自の課題を提示します。
この作業では、ランダム回転行列上のHadamard Matricesの理論的利点を活用して、LLMSの量子化の境界を押し広げます。
Hadamard Matricesは、低ビットの量子化を達成する上で重要な障害である外れ値を減らすのに効果的であることを示しています。
漸進的なバイナリ検索に基づく方法により、重み、活性化、キー価値(kV)キャッシュの3ビット量子化により、SOTAメソッドと比較して一般的なベンチマークの精度が40%増加します。
Paley Algorithmを使用することにより、Qwenアーキテクチャと同様に、回転行列の使用を拡張して、Qwenアーキテクチャと同様に、Qwenアーキテクチャと同様にサポートします。
我々は、外れ値を減らす際のハダマードマトリックスの優位性を理論的に実証します。重み、活性化、およびKVキャッシュの3ビット量子化を達成し、モデルのパフォーマンスを大幅に向上させました。
Mistral、Llama、Qwenなどの複数のモデルファミリでの実験結果は、既存の方法を上回り、実用的な3ビット量子化を可能にし、アプローチの有効性を示しています。
要約(オリジナル)
Large language models (LLMs) have become pivotal in artificial intelligence, demonstrating strong capabilities in reasoning, understanding, and generating data. However, their deployment on edge devices is hindered by their substantial size, often reaching several billion parameters. Quantization is a widely used method to reduce memory usage and inference time, however LLMs present unique challenges due to the prevalence of outliers in their activations. In this work, we leverage the theoretical advantages of Hadamard matrices over random rotation matrices to push the boundaries of quantization in LLMs. We demonstrate that Hadamard matrices are more effective in reducing outliers, which are a significant obstacle in achieving low-bit quantization. Our method based on a gradual binary search enables 3-bit quantization for weights, activations, and key-value (KV) caches, resulting in a 40% increase in accuracy on common benchmarks compared to SoTA methods. We extend the use of rotation matrices to support non-power-of-2 embedding dimensions, similar to the Qwen architecture, by employing the Paley algorithm. We theoretically demonstrates the superiority of Hadamard matrices in reducing outliers.We achieved 3-bit quantization for weights, activations, and KV cache, significantly enhancing model performance. Our experimental results on multiple models family like Mistral, LLaMA, and Qwen demonstrate the effectiveness of our approach, outperforming existing methods and enabling practical 3-bit quantization.
arxiv情報
著者 | Lucas Maisonnave,Cyril Moineau,Olivier Bichler,Fabrice Rastello |
発行日 | 2025-05-13 09:36:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google