Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark

要約

Large Language Models~(LLM) は自然言語処理の分野の基礎となっており、モデル サイズが増加するにつれてパフォーマンスが向上することが実証されています。
Mixture-of-Experts(MoE) アプローチは、スパース アクティベーションを通じてより少ない計算 FLOP を使用することで、LLM をより効率的にスケールする有望な方法を提供します。
ただし、メモリのオーバーヘッドが大きくなり、モデル圧縮技術が必要になります。
モデル圧縮の一般的な方法であるトレーニング後の量子化は、MoE に固有のスパース性が見落とされているため、MoE モデルに直接適用すると効果が低いことがわかります。
このペーパーでは、粗い粒度から細かい粒度まで、MoE ブロックから個々の線形重みに至るまで、いくつかの MoE 構造認識量子化ヒューリスティックを検討します。
私たちの調査により、重要な原則が明らかになりました。それは、効果的かつ効率的な量子化のために、異なる MoE 構造 (つまり、ブロック、エキスパート、線形層) に応じて異なる数の重みビットが必要であるということです。
結論は、2 つの代表的な MoE モデルと 6 つのタスクにわたる広範なベンチマークによって裏付けられています。
さらに、線形重み外れ値スコアラーや MoE ブロック スコアラーなど、より高いビット割り当てを必要とする MoE 量子化で最も重要な重みをより正確に特定するための新しい機能強化を導入します。
さらに、その後の実験では、重みと活性化の量子化の両方の観点から我々の発見を検証します。

要約(オリジナル)

Large Language Models~(LLMs) have become foundational in the realm of natural language processing, demonstrating performance improvements as model sizes increase. The Mixture-of-Experts~(MoE) approach offers a promising way to scale LLMs more efficiently by using fewer computational FLOPs through sparse activation. However, it suffers from significant memory overheads, necessitating model compression techniques. Post-training quantization, a popular method for model compression, proves less effective when directly applied to MoE models due to MoE’s overlooked inherent sparsity. This paper explores several MoE structure-aware quantization heuristics, ranging from coarse to fine granularity, from MoE block to individual linear weight. Our investigations reveal critical principles: different MoE structures (i.e., blocks, experts, linear layers) require varying numbers of weight bits for effective and efficient quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks. We further introduce novel enhancements to more accurately identify the most critical weights in MoE quantization that necessitate higher bit allocations, including the linear weight outlier scorer and MoE block scorer. Additionally, subsequent experiments validate our findings in the context of both weight and activation quantization.

arxiv情報

著者 Pingzhi Li,Xiaolong Jin,Yu Cheng,Tianlong Chen
発行日 2024-06-12 12:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク