The Empirical Impact of Reducing Symmetries on the Performance of Deep Ensembles and MoE

要約

最近の研究では、ニューラルネットワークの対称性を減らすことで、パラメータースペースアライメントを必要とせずにネットワーク間の線形モードの接続性が向上し、線形補間ニューラルネットワークのパフォーマンスが向上することが示されています。
ただし、実際のアプリケーションでは、ニューラルネットワークの補間はめったに使用されません。
代わりに、ネットワークのアンサンブルがより一般的です。
このホワイトペーパーでは、5つのデータセットにわたるディープアンサンブルと専門家(MOE)の混合物のパフォーマンスに対する対称性を減らすことの影響を経験的に調査します。
さらに、より深い線形モードの接続性を調査するために、補間された専門家(MOIE)の混合物を紹介します。
私たちの結果は、非対称ニューラルネットワーク上に構築された深いアンサンブルが、対称的な対応物と比較してアンサンブルサイズが増加するにつれて、パフォーマンスが大幅に向上することを示しています。
対照的に、私たちの実験は、対称性を減らすことがMOEとMoieの建築の両方に影響するかどうかについての決定的な証拠を提供しません。

要約(オリジナル)

Recent studies have shown that reducing symmetries in neural networks enhances linear mode connectivity between networks without requiring parameter space alignment, leading to improved performance in linearly interpolated neural networks. However, in practical applications, neural network interpolation is rarely used; instead, ensembles of networks are more common. In this paper, we empirically investigate the impact of reducing symmetries on the performance of deep ensembles and Mixture of Experts (MoE) across five datasets. Additionally, to explore deeper linear mode connectivity, we introduce the Mixture of Interpolated Experts (MoIE). Our results show that deep ensembles built on asymmetric neural networks achieve significantly better performance as ensemble size increases compared to their symmetric counterparts. In contrast, our experiments do not provide conclusive evidence on whether reducing symmetries affects both MoE and MoIE architectures.

arxiv情報

著者 Andrei Chernov,Oleg Novitskij
発行日 2025-02-24 18:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク