要約
エントロピー加重量子化(EWQ)を使用して、大規模な言語モデル(LLMS)の構造固有およびサイズ依存の圧縮法の制限を超越する選択モデル量子化に対する新しいアプローチを提示します。
変圧器ブロック全体のエントロピー分布を分析することにより、EWQは、モデルアーキテクチャやサイズとは無関係に、かなりの性能劣化を引き起こすことなく安全に量子化できるブロックを決定します。
私たちの方法は、均一な量子化アプローチよりも優れており、重要なモデルの0.5%内で大規模なマルチタスク言語理解(MMLU)精度スコアを維持しながら、メモリの使用量を最大18%削減します。
1.6bから70bパラメーターまでの複数のアーキテクチャにわたるEWQの有効性を実証し、モデルスケールやアーキテクチャの設計に関係なく、品質圧縮トレードオフの一貫した改善を示します。
EWQの驚くべき発見は、未定量のモデルと比較して困惑を軽減する能力であり、選択的精密削減による有益な正則化の存在を示唆しています。
この改善は、さまざまなモデルファミリ全体でもたらされ、レイヤーレベルのエントロピーと最適な精度要件との根本的な関係を示しています。
さらに、モデルの重みをロードする必要性を排除するエントロピー分布分析の迅速な方法であるFasteWQを紹介します。
この手法は、さまざまなアーキテクチャやスケール全体にわたって持続するエントロピー分布の普遍的な特性を活用し、完全なエントロピー分析で80%の分類精度を維持しながら、吸気型の量子化決定を可能にします。
我々の結果は、効果的な量子化戦略を特定の建築の選択またはモデルサイズとは無関係に開発し、効率的なLLM展開の新しい可能性を開始できることを示しています。
要約(オリジナル)
We present a novel approach to selective model quantization that transcends the limitations of architecture-specific and size-dependent compression methods for Large Language Models (LLMs) using Entropy-Weighted Quantization (EWQ). By analyzing the entropy distribution across transformer blocks, EWQ determines which blocks can be safely quantized without causing significant performance degradation, independent of model architecture or size. Our method outperforms uniform quantization approaches, maintaining Massive Multitask Language Understanding (MMLU) accuracy scores within 0.5% of unquantized models while reducing memory usage by up to 18%. We demonstrate the effectiveness of EWQ across multiple architectures — from 1.6B to 70B parameters — and showcase consistent improvements in the quality-compression trade-off regardless of model scale or architectural design. A surprising finding of EWQ is its ability to reduce perplexity compared to unquantized models, suggesting the presence of beneficial regularization through selective precision reduction. This improvement holds across different model families, indicating a fundamental relationship between layer-level entropy and optimal precision requirements. Additionally, we introduce FastEWQ, a rapid method for entropy distribution analysis that eliminates the need for loading model weights. This technique leverages universal characteristics of entropy distribution that persist across various architectures and scales, enabling near-instantaneous quantization decisions while maintaining 80% classification accuracy with full entropy analysis. Our results demonstrate that effective quantization strategies can be developed independently of specific architectural choices or model sizes, opening new possibilities for efficient LLM deployment.
arxiv情報
著者 | Alireza Behtash,Marijan Fofonjka,Ethan Baird,Tyler Mauer,Hossein Moghimifam,David Stout,Joel Dennison |
発行日 | 2025-03-07 15:12:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google