Soft Merging of Experts with Adaptive Routing

要約

条件付き計算を備えたまばらに活性化されたニューラル ネットワークは、入力をさまざまな「エキスパート」サブネットワーク経由でルーティングすることを学習し、高密度で活性化されたモデルにはないモジュール性の形式を提供します。
利点があるにもかかわらず、学習されたルーティングを使用するモデルは、パラメーターが一致し、高密度でアクティブ化されたモデルや、学習されていないヒューリスティック ルーティング戦略を使用するモデルよりもパフォーマンスが劣ることがよくあります。
この論文では、これらの欠点は、微分不可能な離散配線決定を使用するまばらに活性化されたモデルをトレーニングするために使用される勾配推定技術に起因すると仮定します。
この問題に対処するために、Adaptive Routing を使用したエキスパートのソフト マージ (SMEAR) を導入します。これは、すべてのエキスパートのパラメーターの加重平均によって構築された単一の「マージされた」エキスパートを使用することで個別のルーティングを回避します。
SMEAR は、単一の統合されたエキスパートを通じてアクティベーションをルーティングすることにより、計算コストの大幅な増加を招くことなく、標準的な勾配ベースのトレーニングを可能にします。
SMEAR を使用するモデルは、メタデータに基づいてルーティングするモデルや、勾配推定を通じてスパース ルーティングを学習するモデルよりも優れていることが経験的に検証されています。
さらに、SMEAR を通じて学習した専門家がかなりの専門性を示していることを示す定性分析を提供します。
私たちの実験で使用されたコードはすべて公開されています。

要約(オリジナル)

Sparsely activated neural networks with conditional computation learn to route their inputs through different ‘expert’ subnetworks, providing a form of modularity that densely activated models lack. Despite their possible benefits, models with learned routing often underperform their parameter-matched densely activated counterparts as well as models that use non-learned heuristic routing strategies. In this paper, we hypothesize that these shortcomings stem from the gradient estimation techniques used to train sparsely activated models that use non-differentiable discrete routing decisions. To address this issue, we introduce Soft Merging of Experts with Adaptive Routing (SMEAR), which avoids discrete routing by using a single ‘merged’ expert constructed via a weighted average of all of the experts’ parameters. By routing activations through a single merged expert, SMEAR does not incur a significant increase in computational costs and enables standard gradient-based training. We empirically validate that models using SMEAR outperform models that route based on metadata or learn sparse routing through gradient estimation. Furthermore, we provide qualitative analysis demonstrating that the experts learned via SMEAR exhibit a significant amount of specialization. All of the code used in our experiments is publicly available.

arxiv情報

著者 Mohammed Muqeeth,Haokun Liu,Colin Raffel
発行日 2024-05-13 16:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク