Optimization Dynamics of Equivariant and Augmented Neural Networks

要約

対称データ上のニューラル ネットワークの最適化を調査し、アーキテクチャを等変に制約する戦略とデータ拡張を使用する戦略を比較します。
私たちの分析により、許容層と等変層の相対的な幾何学形状がそれぞれ重要な役割を果たしていることが明らかになりました。
データ、ネットワーク、損失、および対称性のグループに関する自然な仮定の下で、対応する直交射影が可換であるという意味で、許容層と等変層の空間の互換性は、等変静止点のセットが同一であることを意味することを示します。
2つの戦略について。
ネットワークの線形層にも単一パラメータ化が与えられている場合、等変層のセットは拡張モデルの勾配フローの下でも不変です。
しかし、私たちの分析では、後者の状況でも、明らかに等変なモデルでは静止点が安定しているにもかかわらず、拡張トレーニングでは静止点が不安定になる可能性があることも明らかになりました。

要約(オリジナル)

We investigate the optimization of neural networks on symmetric data, and compare the strategy of constraining the architecture to be equivariant to that of using data augmentation. Our analysis reveals that that the relative geometry of the admissible and the equivariant layers, respectively, plays a key role. Under natural assumptions on the data, network, loss, and group of symmetries, we show that compatibility of the spaces of admissible layers and equivariant layers, in the sense that the corresponding orthogonal projections commute, implies that the sets of equivariant stationary points are identical for the two strategies. If the linear layers of the network also are given a unitary parametrization, the set of equivariant layers is even invariant under the gradient flow for augmented models. Our analysis however also reveals that even in the latter situation, stationary points may be unstable for augmented training although they are stable for the manifestly equivariant models.

arxiv情報

著者 Oskar Nordenfors,Fredrik Ohlsson Axel Flinth
発行日 2024-08-08 14:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 20C35, 37N40, 68T07, cs.LG, math.OC パーマリンク