要約
このホワイトペーパーでは、専門家(MOE)層の複数の混合物の階層構造を組み合わせた条件付きで活性化されたニューラルネットワークの新しいアーキテクチャを紹介し、サンプリングメカニズムを組み合わせて、エキスパート活性化の最適化された構成に徐々に収束します。
この方法論により、ネットワークのアーキテクチャの動的展開が可能になり、効率的なパス固有のトレーニングが促進されます。
実験結果は、このアプローチが従来のベースラインと比較して競争の精度を達成し、推論に必要なパラメーター数を大幅に削減することを示しています。
特に、このパラメーター削減は、明示的な補助ペナルティ関数を必要とせずに、ネットワークの運用ダイナミクスから自然に現れるプロパティである入力パターンの複雑さと相関しています。
要約(オリジナル)
In this paper, we introduce a novel architecture for conditionally activated neural networks combining a hierarchical construction of multiple Mixture of Experts (MoEs) layers with a sampling mechanism that progressively converges to an optimized configuration of expert activation. This methodology enables the dynamic unfolding of the network’s architecture, facilitating efficient path-specific training. Experimental results demonstrate that this approach achieves competitive accuracy compared to conventional baselines while significantly reducing the parameter count required for inference. Notably, this parameter reduction correlates with the complexity of the input patterns, a property naturally emerging from the network’s operational dynamics without necessitating explicit auxiliary penalty functions.
arxiv情報
著者 | Claudio Gallicchio,Giuseppe Nuti |
発行日 | 2025-02-20 18:09:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google