要約
Mixture-of-Experts(MoE)アーキテクチャは、スパースルーティングを介して大規模言語モデル(LLM)の高い推論コストに対する一般的なソリューションを提供し、膨大なパラメータ数を犠牲にして、より高速でより正確なモデルを実現します。
たとえば、SwitchTransformer-c2048 モデルには 1.6 兆個のパラメータがあり、効率的に実行するには 3.2 TB のアクセラレータ メモリが必要となるため、実際の導入は困難で高価になります。
このペーパーでは、QMoE と呼ばれる新しい圧縮および実行フレームワークの形で、このメモリ問題の解決策を紹介します。
具体的には、QMoE は、数兆パラメータの MoE をパラメータあたり 1 ビット未満に正確に圧縮するスケーラブルなアルゴリズムで構成されており、オーダーメイドの GPU デコード カーネルと共同設計されたカスタム形式で、実行時のオーバーヘッドがわずかで効率的なエンドツーエンドの圧縮推論を促進します。
非圧縮実行と比較して。
具体的には、QMoE は、単一 GPU で 1 日未満で、わずかな精度損失で 1.6 兆パラメータの SwitchTransformer-c2048 モデルを 160 GB 未満に圧縮できます (20 倍圧縮、パラメータあたり 0.8 ビット)。
これにより、理想的な非圧縮推論と比較して 5% 未満のランタイム オーバーヘッドで、4 基の NVIDIA A6000 GPU または 8 基の NVIDIA 3090 GPU を搭載した単一サーバーのような手頃な価格の汎用ハードウェア上で、1 兆パラメータのモデルを実行することが初めて可能になりました。
ソース コードと圧縮モデルは、github.com/IST-DASLab/qmoe で入手できます。
要約(オリジナル)
Mixture-of-Experts (MoE) architectures offer a general solution to the high inference costs of large language models (LLMs) via sparse routing, bringing faster and more accurate models, at the cost of massive parameter counts. For example, the SwitchTransformer-c2048 model has 1.6 trillion parameters, requiring 3.2TB of accelerator memory to run efficiently, which makes practical deployment challenging and expensive. In this paper, we present a solution to this memory problem, in form of a new compression and execution framework called QMoE. Specifically, QMoE consists of a scalable algorithm which accurately compresses trillion-parameter MoEs to less than 1 bit per parameter, in a custom format co-designed with bespoke GPU decoding kernels to facilitate efficient end-to-end compressed inference, with minor runtime overheads relative to uncompressed execution. Concretely, QMoE can compress the 1.6 trillion parameter SwitchTransformer-c2048 model to less than 160GB (20x compression, 0.8 bits per parameter) at only minor accuracy loss, in less than a day on a single GPU. This enables, for the first time, the execution of a trillion-parameter model on affordable commodity hardware, like a single server with 4x NVIDIA A6000 or 8x NVIDIA 3090 GPUs, at less than 5% runtime overhead relative to ideal uncompressed inference. The source code and compressed models are available at github.com/IST-DASLab/qmoe.
arxiv情報
著者 | Elias Frantar,Dan Alistarh |
発行日 | 2023-10-25 17:24:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google