Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクで顕著な能力を示しています。
ただし、そのサイズには、展開と推論に関する重要な課題があります。
このペーパーでは、LLMMの量子化を調査し、Llamaアーキテクチャとその導関数に焦点を当てています。
LLMSの活性化外れ値に関する既存の仮定に挑戦し、Llamaのようなモデルに合わせた新しい混合前定量化アプローチを提案します。
私たちの方法は、ラマアーキテクチャの活性化スパイクが主に特定の投影層に集中しているという観察を活用しています。
これらの層に高い精度(FP16またはFP8)を適用しながら、モデルの残りの部分をビット幅の低いものに量子化することにより、既存の量子化技術と比較して優れた性能を達成します。
LLAMA2、LLAMA3、およびMISTRALモデルの実験結果は、特に8ビットあたりの量子量化の困惑とゼロショットの精度の大幅な改善を示しています。
私たちのアプローチは、すべてのアーキテクチャタイプの外れ値を処理するように設計された汎用方法を上回り、アーキテクチャ固有の量子化戦略の利点を強調しています。
この研究は、LLMSをより効率的かつ展開できるようにするための継続的な取り組みに貢献し、リソースに制約のある環境での使用を可能にする可能性があります。
私たちの調査結果は、活性化スパイクを濃縮する少数の投影を識別および標的にすることにより、最先端の言語モデルの効果的な量子化パイプラインを開発する際のモデル固有の特性を考慮することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks. However, their size presents significant challenges for deployment and inference. This paper investigates the quantization of LLMs, focusing on the LLaMA architecture and its derivatives. We challenge existing assumptions about activation outliers in LLMs and propose a novel mixed-precision quantization approach tailored for LLaMA-like models. Our method leverages the observation that activation spikes in LLaMA architectures are predominantly concentrated in specific projection layers. By applying higher precision (FP16 or FP8) to these layers while quantizing the rest of the model to lower bit-widths, we achieve superior performance compared to existing quantization techniques. Experimental results on LLaMA2, LLaMA3, and Mistral models demonstrate significant improvements in perplexity and zero-shot accuracy, particularly for 8-bit per-tensor quantization. Our approach outperforms general-purpose methods designed to handle outliers across all architecture types, highlighting the benefits of architecture-specific quantization strategies. This research contributes to the ongoing efforts to make LLMs more efficient and deployable, potentially enabling their use in resource-constrained environments. Our findings emphasize the importance of considering model-specific characteristics in developing effective quantization pipelines for state-of-the-art language models by identifying and targeting a small number of projections that concentrate activation spikes.

arxiv情報

著者 Lucas Maisonnave,Cyril Moineau,Olivier Bichler,Fabrice Rastello
発行日 2025-04-30 11:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク