Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks

要約

大規模言語モデル (LLM) は、一般的な自然言語処理 (NLP) タスクにおいてかなりの熟練度を示しています。
成功したパラダイムである命令チューニングは、自然言語命令に従い、一般的なタスク全体にわたって堅牢な一般化を示す LLM の能力を強化します。
ただし、これらのモデルは、モデルの容量に制約があるため、複数のタスクにわたってパフォーマンスの制限に遭遇することがよくあります。
命令調整フェーズ中にこの容量を拡張することは、重大な課題を引き起こします。
この問題に対処するために、専門家混合 (MoE) アーキテクチャを使用して密なモデルを疎なモデルに作成するパラメーター効率の高いスパース クラフト (PESC) を導入します。
PESC はアダプターを疎モデルの MoE レイヤーに統合し、これらのレイヤー内の個々の重みを変更することなくエキスパートを差別化します。
この方法では、計算コストと GPU メモリ要件が大幅に削減され、元のスパース アップサイクルと比較して関数空間での近似の品質を保証する際に、最小限のパラメーターの増加を通じてモデルの容量拡張が容易になります。
私たちの経験的評価は、PESC 手法の有効性を実証しています。
命令チューニング中に PESC を使用することで、当社の最高のスパース モデルは他のスパース モデルやデンス モデルよりも優れたパフォーマンスを発揮し、GPT-3.5 と比較して優れた一般的な機能を示します。
私たちのコードは https://github.com/wuhy68/Parameter-Efficient-MoE で入手できます。

要約(オリジナル)

Large language models (LLMs) have demonstrated considerable proficiency in general natural language processing (NLP) tasks. Instruction tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across general tasks. However, these models often encounter performance limitations across multiple tasks due to constrained model capacity. Expanding this capacity during the instruction tuning phase poses significant challenges. To address this issue, we introduce parameter-efficient sparsity crafting (PESC), which crafts dense models into sparse models using the mixture-of-experts (MoE) architecture. PESC integrates adapters into the MoE layers of sparse models, differentiating experts without altering the individual weights within these layers. This method significantly reduces computational costs and GPU memory requirements, facilitating model capacity expansion through a minimal parameter increase when guaranteeing the quality of approximation in function space compared to original sparse upcycling. Our empirical evaluation demonstrates the effectiveness of the PESC method. Using PESC during instruction tuning, our best sparse model outperforms other sparse and dense models and exhibits superior general capabilities compared to GPT-3.5. Our code is available at https://github.com/wuhy68/Parameter-Efficient-MoE.

arxiv情報

著者 Haoyuan Wu,Haisheng Zheng,Zhuolun He,Bei Yu
発行日 2024-09-24 14:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク