Improving Expert Specialization in Mixture of Experts

要約

20 年以上前に導入された専門家の混合 (MoE) は、最も単純なゲート付きモジュラー ニューラル ネットワーク アーキテクチャです。
大規模な自然言語処理モデルで最近実証されたように、条件付き計算では各推論中にネットワークの一部のみを使用できるため、MoE に新たな関心が寄せられています。
専門家は新しいタスクに再利用される可能性があり、新しい専門家が導入される可能性があるため、MoE は継続的な学習にも潜在的に関心があります。
MoE アーキテクチャのゲートはタスクの分解を学習し、個々の専門家はゲートの分解に適したより単純な関数を学習します。
この論文では、(1) 元の MoE アーキテクチャとそのトレーニング方法は、直感的なタスクの分解と専門家の優れた活用を保証しないことを示しています。
(2) Attention に似た新しいゲーティング アーキテクチャを導入し、パフォーマンスを向上させ、エントロピーの低いタスク分解を実現します。
(3)専門家の専門性を向上させる新しいデータ駆動型の正則化を導入します。
MNIST、FashionMNIST、および CIFAR-100 データセットでメソッドを実証的に検証します。

要約(オリジナル)

Mixture of experts (MoE), introduced over 20 years ago, is the simplest gated modular neural network architecture. There is renewed interest in MoE because the conditional computation allows only parts of the network to be used during each inference, as was recently demonstrated in large scale natural language processing models. MoE is also of potential interest for continual learning, as experts may be reused for new tasks, and new experts introduced. The gate in the MoE architecture learns task decompositions and individual experts learn simpler functions appropriate to the gate’s decomposition. In this paper: (1) we show that the original MoE architecture and its training method do not guarantee intuitive task decompositions and good expert utilization, indeed they can fail spectacularly even for simple data such as MNIST and FashionMNIST; (2) we introduce a novel gating architecture, similar to attention, that improves performance and results in a lower entropy task decomposition; and (3) we introduce a novel data-driven regularization that improves expert specialization. We empirically validate our methods on MNIST, FashionMNIST and CIFAR-100 datasets.

arxiv情報

著者 Yamuna Krishnamurthy,Chris Watkins,Thomas Gaertner
発行日 2023-02-28 16:16:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク