Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts

要約

効率、専門化、新しいデータ分布への適応性は、現在の大規模言語モデルでは組み合わせるのが難しい性質です。
Mixture of Experts (MoE) アーキテクチャは、その固有の条件付き計算によってこのような望ましい特性が可能になるため、重要な研究の焦点となっています。
この作業では、高密度のエキスパート モデルを MoE に「アップサイクル」することに焦点を当て、専門性を向上させると同時に、新しいタスクに簡単に適応する機能を追加することを目指しています。
Nexus は、モデルがドメイン表現からエキスパート エンベディングを投影することを学習する適応ルーティングを備えた強化された MoE アーキテクチャです。
このアプローチにより、Nexus は、目に見えないデータ ドメインに対する大規模な MoE トレーニングを必要とせず、個別にトレーニングされた高密度モデルによる最初のアップサイクル後に新しい専門家を柔軟に追加できます。
私たちの実験では、Nexus は、初期アップサイクルではベースラインに対して最大 2.1% の相対利益を達成し、限られた微調整データを使用して新しいエキスパートによる MoE の拡張では 18.8% の相対利益を達成したことを示しています。
Nexus のこの柔軟性は、すべてのユーザーがニーズに応じて独自の MoE ミックスを継続的に組み立てるオープンソース エコシステムを実現するために非常に重要です。

要約(オリジナル)

Efficiency, specialization, and adaptability to new data distributions are qualities that are hard to combine in current Large Language Models. The Mixture of Experts (MoE) architecture has been the focus of significant research because its inherent conditional computation enables such desirable properties. In this work, we focus on ‘upcycling’ dense expert models into an MoE, aiming to improve specialization while also adding the ability to adapt to new tasks easily. We introduce Nexus, an enhanced MoE architecture with adaptive routing where the model learns to project expert embeddings from domain representations. This approach allows Nexus to flexibly add new experts after the initial upcycling through separately trained dense models, without requiring large-scale MoE training for unseen data domains. Our experiments show that Nexus achieves a relative gain of up to 2.1% over the baseline for initial upcycling, and a 18.8% relative gain for extending the MoE with a new expert by using limited finetuning data. This flexibility of Nexus is crucial to enable an open-source ecosystem where every user continuously assembles their own MoE-mix according to their needs.

arxiv情報

著者 Nikolas Gritsch,Qizhen Zhang,Acyr Locatelli,Sara Hooker,Ahmet Üstün
発行日 2024-08-28 16:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク