Fast Inference of Mixture-of-Experts Language Models with Offloading

要約

大規模言語モデル (LLM) の普及に伴い、多くの深層学習実践者は、これらのモデルをより効率的に実行する戦略を模索しています。
そのような戦略の 1 つは、スパースな専門家混合 (MoE) を使用することです。これは、特定の入力に対してモデル層の一部のみがアクティブになるモデル アーキテクチャの一種です。
この特性により、MoE ベースの言語モデルは、高密度の言語モデルよりも高速にトークンを生成できますが、複数の専門家が存在するため、モデルのサイズも増加します。
残念ながら、これにより、ハイエンド GPU なしでは最先端の MoE 言語モデルを実行することが困難になります。
この研究では、アクセラレータ メモリが限られているコンシューマ ハードウェア上で大規模な MoE 言語モデルを実行する場合の問題を研究します。
私たちはパラメータ オフロード アルゴリズムを構築し、MoE LLM の固有の特性を利用してオフロードを加速する新しい戦略を提案します。
この戦略を使用して、デスクトップ ハードウェアと無料層の Google Colab インスタンス上で混合量子化を使用して Mixtral-8x7B を実行できるように構築します。

要約(オリジナル)

With the widespread adoption of Large Language Models (LLMs), many deep learning practitioners are looking for strategies of running these models more efficiently. One such strategy is to use sparse Mixture-of-Experts (MoE) – a type of model architectures where only a fraction of model layers are active for any given input. This property allows MoE-based language models to generate tokens faster than their dense counterparts, but it also increases model size due to having multiple experts. Unfortunately, this makes state-of-the-art MoE language models difficult to run without high-end GPUs. In this work, we study the problem of running large MoE language models on consumer hardware with limited accelerator memory. We build upon parameter offloading algorithms and propose a novel strategy that accelerates offloading by taking advantage of innate properties of MoE LLMs. Using this strategy, we build can run Mixtral-8x7B with mixed quantization on desktop hardware and free-tier Google Colab instances.

arxiv情報

著者 Artyom Eliseev,Denis Mazur
発行日 2023-12-28 18:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク