要約
大規模言語モデル (LLM) は顕著な成果を上げています。
しかし、既存のモデルはトレーニングとデプロイに費用がかかり、以前の知識を忘れずにトレーニング前のデータを超えて知識を拡張することも困難です。
この論文では、モジュール性を活用して大規模な言語モデルの効率と柔軟性を向上させる、新しいニューラル ネットワーク アーキテクチャ ModuleFormer を提案します。
ModuleFormer は、Sparse Mixture of Experts (SMoE) に基づいています。
ドメイン固有の専門家を学習するためにドメインラベル付きデータを必要とする以前の SMoE ベースのモジュラー言語モデル [Gururangan et al., 2021] とは異なり、ModuleFormer は、新しい負荷分散と負荷集中損失により、キュレートされていないデータからモジュール性を誘導できます。
ModuleFormer は、2 つの異なるタイプのモジュール、新しい棒を打ち破るアテンション ヘッド、フィードフォワード エキスパートを含むモジュラー アーキテクチャです。
トレーニングおよび推論中に、入力トークンに対してさまざまなモジュールがまばらにアクティブ化された条件になります。
私たちの実験では、モジュール式アーキテクチャにより、大規模な事前トレーニング済み言語モデルに対して 3 つの重要な機能が可能になることがわかりました。 1) 効率。ModuleFormer は入力トークンごとにモジュールのサブセットのみをアクティブ化するため、高密度 LLM と同じパフォーマンスを達成できます。
2 倍を超えるスループット。
2) 拡張性。ModuleFormer は、高密度 LLM よりも壊滅的な忘却の影響を受けにくく、新しいモジュールで簡単に拡張して、トレーニング データに含まれていない新しい知識を学習できます。
3) 特化、微調整 ModuleFormer は、モジュールのサブセットを微調整タスクに特化することができ、タスクに関係のないモジュールは軽量の展開のために簡単にプルーニングできます。
要約(オリジナル)
Large Language Models (LLMs) have achieved remarkable results. But existing models are expensive to train and deploy, and it is also difficult to expand their knowledge beyond pre-training data without forgetting previous knowledge. This paper proposes a new neural network architecture, ModuleFormer, that leverages modularity to improve the efficiency and flexibility of large language models. ModuleFormer is based on the Sparse Mixture of Experts (SMoE). Unlike the previous SMoE-based modular language model [Gururangan et al., 2021], which requires domain-labeled data to learn domain-specific experts, ModuleFormer can induce modularity from uncurated data with its new load balancing and load concentration losses. ModuleFormer is a modular architecture that includes two different types of modules, new stick-breaking attention heads, and feedforward experts. Different modules are sparsely activated conditions on the input token during training and inference. In our experiment, we found that the modular architecture enables three important abilities for large pre-trained language models: 1) Efficiency, since ModuleFormer only activates a subset of its modules for each input token, thus it could achieve the same performance as dense LLMs with more than two times throughput; 2) Extendability, ModuleFormer is more immune to catastrophic forgetting than dense LLMs and can be easily extended with new modules to learn new knowledge that is not included in the training data; 3) Specialisation, finetuning ModuleFormer could specialize a subset of modules to the finetuning task, and the task-unrelated modules could be easily pruned for a lightweight deployment.
arxiv情報
著者 | Yikang Shen,Zheyu Zhang,Tianyou Cao,Shawn Tan,Zhenfang Chen,Chuang Gan |
発行日 | 2023-06-07 17:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google