要約
混合物(MOE)は、大規模な言語モデルの学習能力を拡大する有望な方法です。
パラメーターの数を増やし、スパース活性化を通じて推論中にフロップをほぼ一定に保ちます。
しかし、それは膨大なパラメーターサイズのために依然として重要なメモリオーバーヘッドに苦しんでおり、モデルの圧縮技術が必要です。
トレーニング後の量子化は、モデル圧縮の強力なアプローチを提供します。
既存の方法は、MOEモデル全体に固定量子化精度を採用しています。
この厳格なセットアップは、固有のスパース構造を考慮せずに、最適ではないパフォーマンスにつながる可能性があります。
たとえば、MOEのまばらなルーティングメカニズムはさまざまな活性化パターンにつながります。ここでは、共有の専門家がすべてのトークンからアクセスされ、トークン条件の専門家が選択的にアクティブ化されます。
この活性化の格差は、異なる量子化要件を示唆しており、モデルの品質を維持するために、より高い精度が必要になる可能性がある一貫して活性化された共有専門家があります。
このホワイトペーパーでは、MOE量子化のためのきめの細かい精度セットアップを研究します。
粗い(例:MOE層)から細かい粒度(例えば、線形層)に至るまで、MOE構造を意識した量子化ヒューリスティックを探索します。
私たちの調査は、さまざまなMOE構造が効果的な量子化のためにさまざまな数のビットを必要とする重要な原則を明らかにしています。
結論は、2つの代表的なMOEモデルと、常識的な推論と自然言語の理解を含む6つのタスクにわたる広範なベンチマークによってサポートされています。
さらに、微調整された混合精度で量子化されたMOEが、ベースライン64.30%(つまり、GPTQ)と比較して、平均して最先端の65.35%のパフォーマンスを達成したことを示しています。
さらに、調査結果に基づいて、Outlier-aware Linear Layer ScorerやMoE Blockの重要性予測子など、MOE量子化のビット割り当てを最適化するための新しいデータ駆動型の手法を導入します。
要約(オリジナル)
Mixture-of-Experts (MoE) is a promising way to scale up the learning capacity of large language models. It increases the number of parameters while keeping FLOPs nearly constant during inference through sparse activation. Yet, it still suffers from significant memory overheads due to the vast parameter size, necessitating model compression techniques. Post-training quantization offers a powerful approach for model compression. Existing methods adopt a fixed quantization precision for the entire MoE model. This rigid setup can lead to suboptimal performance, without considering the inherent sparse structure. For example, MoE’s sparse routing mechanism leads to different activation patterns, where shared experts are accessed by all tokens while token-conditioned experts are selectively activated. This activation disparity suggests different quantization requirements, with consistently activated shared experts potentially needing higher precision to maintain model quality. In this paper, we study a fine-grained precision setup for MoE quantization. We explore MoE structure-aware quantization heuristics, ranging from coarse (e.g., MoE layers) to fine granularity (e.g., linear layers). Our investigations reveal critical principles, where different MoE structures require varying numbers of bits for effective quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks including commonsense reasoning and natural language understanding. We further show that an MoE quantized in a fined-grained mixed precision achieved state-of-the-art 65.35% performance on average compared to the baseline 64.30% (i.e., GPTQ). Moreover, based on the findings, we introduce novel data-driven techniques for optimizing bit allocation in MoE quantization, including the outlier-aware linear layer scorer and MoE block importance predictor.
arxiv情報
著者 | Pingzhi Li,Xiaolong Jin,Zhen Tan,Yu Cheng,Tianlong Chen |
発行日 | 2025-02-25 18:29:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google