MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts

要約

Sparse Mixture of Experts (SMoE) は、ディープ ラーニングで比類のないスケーラビリティを実現する鍵となっています。
SMoE は、特定のサンプルに対してこれらのパラメーターの小さなサブセットのみをアクティブにすることで、モデルの効率を維持しながら、パラメーター数を指数関数的に増加させる可能性があります。
ただし、SMoE はトレーニングが不安定であり、新しい分布に適応することが困難であるため、データ汚染に対するモデルの堅牢性が欠如していることが観察されています。
これらの制限を克服するために、最初に、SMoE のエキスパート表現のダイナミクスと多目的最適化問題の勾配降下法の間の関係を確立します。
私たちのフレームワークを活用して、モメンタムを SMoE に統合し、MomentumSMoE という名前の新しい SMoE ファミリを提案します。
我々は、MomentumSMoE が SMoE よりも安定していて堅牢であることを理論的に証明し、数値的に実証します。
特に、ImageNet-1K オブジェクト認識や WikiText-103 言語モデリングなどのさまざまな実践的なタスクにおいて、SMoE に対する MomentumSMoE の利点を検証します。
我々は、視覚用スパース MoE モデル (V-MoE) やジェネラリスト言語モデル (GLaM) を含む、多くのタイプの SMoE モデルに対する MomentumSMoE の適用可能性を実証します。
また、Adam などの他の高度な運​​動量ベースの最適化手法を MomentumSMoE フレームワークに簡単に組み込んで、さらに優れたパフォーマンス、ほぼ無視できる追加の計算コスト、簡単な実装を備えた新しい SMoE モデルを設計できることも示します。

要約(オリジナル)

Sparse Mixture of Experts (SMoE) has become the key to unlocking unparalleled scalability in deep learning. SMoE has the potential to exponentially increase parameter count while maintaining the efficiency of the model by only activating a small subset of these parameters for a given sample. However, it has been observed that SMoE suffers from unstable training and has difficulty adapting to new distributions, leading to the model’s lack of robustness to data contamination. To overcome these limitations, we first establish a connection between the dynamics of the expert representations in SMoEs and gradient descent on a multi-objective optimization problem. Leveraging our framework, we then integrate momentum into SMoE and propose a new family of SMoEs named MomentumSMoE. We theoretically prove and numerically demonstrate that MomentumSMoE is more stable and robust than SMoE. In particular, we verify the advantages of MomentumSMoE over SMoE on a variety of practical tasks including ImageNet-1K object recognition and WikiText-103 language modeling. We demonstrate the applicability of MomentumSMoE to many types of SMoE models, including those in the Sparse MoE model for vision (V-MoE) and the Generalist Language Model (GLaM). We also show that other advanced momentum-based optimization methods, such as Adam, can be easily incorporated into the MomentumSMoE framework for designing new SMoE models with even better performance, almost negligible additional computation cost, and simple implementations.

arxiv情報

著者 Rachel S. Y. Teo,Tan M. Nguyen
発行日 2024-10-18 16:20:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, stat.ML パーマリンク