Mixture of Experts with Mixture of Precisions for Tuning Quality of Service

要約

リソースに制約のある環境で大規模な専門家混合 (MoE) モデルを展開する需要が高まっているため、高いメモリ要件と計算要件の課題に対処する効率的なアプローチが必要です。
さらに、タスクにはさまざまなユーザー定義の制約があり、マルチテナント環境では利用可能なリソースが時間の経過とともに変化することを考慮すると、柔軟な構成スペースを提供するアプローチを設計する必要があります。
このペーパーでは、専門家の部分量子化を利用して、MoE モデルを効率的に展開するためのアダプティブ サービング アプローチを紹介します。
量子化されたエキスパートの数とその分布を CPU と GPU に動的に決定することで、私たちのアプローチはパレート フロンティアを探索し、スループットとモデル品質を調整するためのきめ細かい構成の範囲を提供します。
3 つの言語モデリング ベンチマークに対して、Mixtral 8x7B MoE モデルを使用した NVIDIA A100 GPU での評価では、トークン生成のスループットを 1 秒あたり 0.63 から 13.00 トークンまで調整できることが実証されました。
この機能強化により、最大量子化下で WikiText2、PTB、および C4 データセットのパープレキシティがそれぞれ 2.62 から 2.80、6.48 から 7.24、および 3.24 から 3.53 と限界パープレキシティが増加します。
これらの結果は、メモリ使用量と出力品質の両方が重要となる、動的で精度に敏感なアプリケーションにおける私たちのアプローチの実際的な適用可能性を強調しています。

要約(オリジナル)

The increasing demand for deploying large Mixture-of-Experts (MoE) models in resource-constrained environments necessitates efficient approaches to address their high memory and computational requirements challenges. Moreover, given that tasks come in different user-defined constraints and the available resources change over time in multi-tenant environments, it is necessary to design an approach which provides a flexible configuration space. This paper presents an adaptive serving approach for the efficient deployment of MoE models, capitalizing on partial quantization of the experts. By dynamically determining the number of quantized experts and their distribution across CPU and GPU, our approach explores the Pareto frontier and offers a fine-grained range of configurations for tuning throughput and model quality. Our evaluation on an NVIDIA A100 GPU using a Mixtral 8x7B MoE model for three language modelling benchmarks demonstrates that the throughput of token generation can be adjusted from 0.63 to 13.00 token per second. This enhancement comes with a marginal perplexity increase of 2.62 to 2.80, 6.48 to 7.24, and 3.24 to 3.53 for WikiText2, PTB, and C4 datasets respectively under maximum quantization. These results highlight the practical applicability of our approach in dynamic and accuracy-sensitive applications where both memory usage and output quality are important.

arxiv情報

著者 HamidReza Imani,Abdolah Amirany,Tarek El-Ghazawi
発行日 2024-07-19 15:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.PF パーマリンク