The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof

要約

深層学習における多くのアルゴリズムと観察された現象は、パラメーターの対称性、つまり基礎となるニューラル ネットワークの機能を変更しないニューラル ネットワーク パラメーターの変換の影響を受けるようです。
これらには、線形モード接続、モデルの結合、ベイジアン ニューラル ネットワーク推論、メタネットワーク、および最適化または損失ランドスケープのその他のいくつかの特性が含まれます。
しかし、パラメータの空間対称性とこれらの現象との関係を理論的に解析することは困難です。
この研究では、パラメータ空間の対称性を低減した新しいニューラル ネットワーク アーキテクチャを導入することにより、ニューラル パラメータの対称性の影響を実証的に調査します。
私たちは、標準的なニューラル ネットワークを変更してパラメータ空間の対称性を低減する、いくつかの証明可能な保証を備えた 2 つの方法を開発しました。
これらの新しい方法を使用して、パラメータの対称性を除去する効果を評価することを目的とした複数のタスクからなる包括的な実験研究を実施します。
私たちの実験により、パラメーターの対称性の経験的影響に関するいくつかの興味深い観察結果が明らかになりました。
たとえば、重み空間を調整せずにネットワーク間の線形モード接続を観察すると、ネットワークによってより高速かつ効果的なベイジアン ニューラル ネットワーク トレーニングが可能になることがわかりました。

要約(オリジナル)

Many algorithms and observed phenomena in deep learning appear to be affected by parameter symmetries — transformations of neural network parameters that do not change the underlying neural network function. These include linear mode connectivity, model merging, Bayesian neural network inference, metanetworks, and several other characteristics of optimization or loss-landscapes. However, theoretical analysis of the relationship between parameter space symmetries and these phenomena is difficult. In this work, we empirically investigate the impact of neural parameter symmetries by introducing new neural network architectures that have reduced parameter space symmetries. We develop two methods, with some provable guarantees, of modifying standard neural networks to reduce parameter space symmetries. With these new methods, we conduct a comprehensive experimental study consisting of multiple tasks aimed at assessing the effect of removing parameter symmetries. Our experiments reveal several interesting observations on the empirical impact of parameter symmetries; for instance, we observe linear mode connectivity between our networks without alignment of weight spaces, and we find that our networks allow for faster and more effective Bayesian neural network training.

arxiv情報

著者 Derek Lim,Moe Putterman,Robin Walters,Haggai Maron,Stefanie Jegelka
発行日 2024-05-30 16:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク