Simultaneous linear connectivity of neural networks modulo permutation

要約

ニューラル ネットワークは通常、ネットワークの損失ランドスケープの非凸性に寄与する置換対称性を示します。これは、学習済みネットワークの 2 つの置換バージョン間を線形補間すると、高い損失障壁に遭遇する傾向があるためです。
最近の研究では、置換対称性が非凸性の唯一の原因であると主張しています。これは、適切に置換されていれば、学習済みネットワーク間にそのような障壁は本質的に存在しないことを意味します。
この研究では、これらの議論を、強度を高める 3 つの異なる主張に洗練させます。
既存の証拠は「弱い線形接続」のみをサポートしていること、つまり、一連の SGD ソリューションに属するネットワークのペアごとに、それを他のネットワークと線形に接続する (複数の) 順列が存在することを示します。
対照的に、「強力な線形接続」(各ネットワークには、他のネットワークと同時に接続する順列が 1 つ存在する)という主張は、直感的にも実際的にもより望ましいものです。
このより強力な主張は、順列を考慮すると損失ランドスケープが凸状であることを意味し、損失を増加させることなく 3 つ以上の独立してトレーニングされたモデル間の線形補間を可能にするでしょう。
この研究では、ネットワークの特定のシーケンスに対して、これらのシーケンスからネットワークの一致するペアを同時に整列させる 1 つの順列が存在するという中間主張を導入します。
具体的には、単一の並べ替えによって、反復的にトレーニングされたネットワークと反復的に枝刈りされたネットワークのシーケンスが整列することがわかりました。これは、2 つのネットワークがそれぞれ、最適化およびスパース化の軌道の各ステップで低い損失障壁を示すことを意味します。
最後に、3 つのネットワーク間を補間するときにネットワーク幅が増加するにつれて障壁が減少することを示すことにより、特定の条件下で強力な線形接続が可能である可能性があるという最初の証拠を提供します。

要約(オリジナル)

Neural networks typically exhibit permutation symmetries which contribute to the non-convexity of the networks’ loss landscapes, since linearly interpolating between two permuted versions of a trained network tends to encounter a high loss barrier. Recent work has argued that permutation symmetries are the only sources of non-convexity, meaning there are essentially no such barriers between trained networks if they are permuted appropriately. In this work, we refine these arguments into three distinct claims of increasing strength. We show that existing evidence only supports ‘weak linear connectivity’-that for each pair of networks belonging to a set of SGD solutions, there exist (multiple) permutations that linearly connect it with the other networks. In contrast, the claim ‘strong linear connectivity’-that for each network, there exists one permutation that simultaneously connects it with the other networks-is both intuitively and practically more desirable. This stronger claim would imply that the loss landscape is convex after accounting for permutation, and enable linear interpolation between three or more independently trained models without increased loss. In this work, we introduce an intermediate claim-that for certain sequences of networks, there exists one permutation that simultaneously aligns matching pairs of networks from these sequences. Specifically, we discover that a single permutation aligns sequences of iteratively trained as well as iteratively pruned networks, meaning that two networks exhibit low loss barriers at each step of their optimization and sparsification trajectories respectively. Finally, we provide the first evidence that strong linear connectivity may be possible under certain conditions, by showing that barriers decrease with increasing network width when interpolating among three networks.

arxiv情報

著者 Ekansh Sharma,Devin Kwok,Tom Denton,Daniel M. Roy,David Rolnick,Gintare Karolina Dziugaite
発行日 2024-04-09 17:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク