SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating

要約

変圧器モデルは、その優れたパフォーマンスにもかかわらず、高い計算要件が原因で実際​​的な制限に直面することがよくあります。
同時に、このようなモデルは顕著な活性化スパース性を示し、ネットワークの一部を専門家混合 (MoE) レイヤーに変換することで推論コストを削減するために利用できます。
ただし、活性化の希薄性が重要な役割を果たしているにもかかわらず、このプロセスに対するその影響はまだ解明されていません。
このペーパーでは、アクティベーション スパース性の強制を通じて MoE 変換の効率を向上させます。
さらに、アクティブ化されたニューロンの数の大きな分散を動機として、トークンごとに実行されるエキスパートの数を調整する、より効果的なダイナミック k エキスパート選択ルールを提案します。
最後に、このアプローチを複数の頭の注意予測に拡張し、さらに節約します。
提案された手法、Sparsified Activation Dynamic-k Mixture-of-Experts (SADMoE) は、一般的な NLP およびビジョン タスクに対する既存のアプローチよりも優れたパフォーマンスを示し、モデルのパフォーマンスに大きな影響を与えることなく推論コストを最大 60% 節約できます。

要約(オリジナル)

Transformer models, despite their impressive performance, often face practical limitations due to their high computational requirements. At the same time, such models exhibit significant activation sparsity, which can be leveraged to reduce the inference cost by transforming parts of the network into Mixture-of-Experts (MoE) layers. However, despite the crucial role of activation sparsity, its impact on this process remains unexplored. In this paper, we enhance the efficiency of MoE conversion through activation sparsity enforcement. Moreover, motivated by the high variance in the number of activated neurons, we propose a more effective dynamic-k expert selection rule that adjusts the number of executed experts on a per-token basis. Finally, we extend this approach to multi-head attention projections, which results in even further savings. The proposed method, Sparsified Activation Dynamic-k Mixture-of-Experts (SADMoE), outperforms existing approaches on common NLP and vision tasks, allowing us to save up to 60% of inference cost without significantly affecting model performance.

arxiv情報

著者 Filip Szatkowski,Bartosz Wójcik,Mikołaj Piórczyński,Kamil Adamczewski
発行日 2024-02-26 11:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク