Symmetries, flat minima, and the conserved quantities of gradient flow

要約

深いネットワークの損失状況に関する実証的研究により、多くの極小値が低損失の谷を介して接続されていることが明らかになりました。
しかし、そのような谷の理論的な起源についてはほとんどわかっていません。
低損失の谷を切り開くパラメーター空間で連続対称性を見つけるための一般的なフレームワークを提示します。
私たちのフレームワークは活性化関数の等分散を使用し、さまざまなレイヤー アーキテクチャに適用できます。
このフレームワークを非線形ニューラル ネットワークに一般化するために、非線形のデータ依存対称性の新しいセットを導入します。
これらの対称性により、トレーニング済みのモデルが新しいサンプルでも同様に機能するように変換できます。これにより、特定の敵対的攻撃に対するロバスト性を向上させるアンサンブル構築が可能になります。
次に、線形対称性に関連付けられた保存量を使用して、低損失の谷に沿った座標を定義できることを示します。
保存された量は、一般的な初期化方法を使用して、勾配フローがグローバル最小値のごく一部のみを探索することを明らかにするのに役立ちます。
保存された量を収束率と最小値の鋭さに関連付けることにより、初期化が収束と一般化可能性にどのように影響するかについての洞察を提供します。

要約(オリジナル)

Empirical studies of the loss landscape of deep networks have revealed that many local minima are connected through low-loss valleys. Yet, little is known about the theoretical origin of such valleys. We present a general framework for finding continuous symmetries in the parameter space, which carve out low-loss valleys. Our framework uses equivariances of the activation functions and can be applied to different layer architectures. To generalize this framework to nonlinear neural networks, we introduce a novel set of nonlinear, data-dependent symmetries. These symmetries can transform a trained model such that it performs similarly on new samples, which allows ensemble building that improves robustness under certain adversarial attacks. We then show that conserved quantities associated with linear symmetries can be used to define coordinates along low-loss valleys. The conserved quantities help reveal that using common initialization methods, gradient flow only explores a small part of the global minimum. By relating conserved quantities to convergence rate and sharpness of the minimum, we provide insights on how initialization impacts convergence and generalizability.

arxiv情報

著者 Bo Zhao,Iordan Ganev,Robin Walters,Rose Yu,Nima Dehmamy
発行日 2023-03-23 15:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.RT パーマリンク