MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators

要約

大規模なパラメーターを使用して、混合物(MOE)モデルを効率的に展開するための重要なアプローチは量子化です。
ただし、最先端のMOEモデルは、4ビット未満などの極端な量子化により、視線不可能な精度損失に苦しんでいます。
これに対処するために、MILOを紹介します。MILOは、低ランク補償器の混合物で高量子化されたMoEを増強する新しい方法です。
これらの補償器は、少量の追加メモリのみを消費しますが、極端な量子化から精度の損失を大幅に回収します。
Miloはまた、Hybridの密な副像のためにMoemodelsが重量全体で特徴的な特性を示すことを特定し、適応性のあるランク選択ポリシーを使用して、反復的な最適化を使用して精度のギャップを閉じます。
MILOはキャリブレーションデータに依存せず、キャリブレーションセットにオーバーフィッティングすることなく、異なるMOEモデルとデータセットに一般化することができます。
3ビットなどの極端な量子化のハードウェアの非効率性を回避するために、MILOはテンソルコアに優しい3ビットカーネルを開発し、3ビットの量子化されたMOEモデルで測定されたレイテンシスピードアップを可能にします。
私たちの評価は、MILOがさまざまなタスクにわたってSota Moeモデルの既存の方法を上回ることを示しています。

要約(オリジナル)

A critical approach for efficiently deploying Mixture-of-Experts (MoE) models with massive parameters is quantization. However, state-of-the-art MoE models suffer from non-negligible accuracy loss with extreme quantization, such as under 4 bits. To address this, we introduce MiLo, a novel method that augments highly quantized MoEs with a mixture of low-rank compensators. These compensators consume only a small amount of additional memory but significantly recover accuracy loss from extreme quantization. MiLo also identifies that MoEmodels exhibit distinctive characteristics across weights due to their hybrid dense-sparse architectures, and employs adaptive rank selection policies along with iterative optimizations to close the accuracy gap. MiLo does not rely on calibration data, allowing it to generalize to different MoE models and datasets without overfitting to a calibration set. To avoid the hardware inefficiencies of extreme quantization, such as 3-bit, MiLo develops Tensor Core-friendly 3-bit kernels, enabling measured latency speedups on 3-bit quantized MoE models. Our evaluation shows that MiLo outperforms existing methods on SoTA MoE models across various tasks.

arxiv情報

著者 Beichen Huang,Yueming Yuan,Zelei Shao,Minjia Zhang
発行日 2025-04-07 17:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク