要約
暗黙的な正則化の現象は、ニューラル ネットワークの優れた一般化能力の基本的な側面として近年注目を集めています。
一言で言えば、多くのニューラル ネットワークにおける勾配降下ダイナミクスは、損失関数に明示的な正則化子がなくても、正則化された学習問題の解に収束することを意味します。
しかし、この現象を理論的に説明しようとする既知の結果は、圧倒的に線形ニューラル ネットワークの設定に焦点を当てており、線形構造の単純さは既存の議論にとって特に重要です。
この論文では、一般的なクラスの非線形活性化関数を備えたより現実的なニューラル ネットワークのコンテキストでこの問題を調査し、厳密なレート保証とともに、マトリックス センシング問題の設定におけるそのようなネットワークの暗黙的な正則化現象を厳密に実証します。
この流れで、私たちは行列学習問題に特に適したスペクトル ニューラル ネットワーク (略称 SNN) と呼ばれるネットワーク アーキテクチャに貢献します。
概念的には、これには、行列のエントリではなく、特異値と特異ベクトルによって行列の空間を調整することが必要であり、行列学習にとって潜在的に有益な視点となります。
私たちは、SNN アーキテクチャが本質的にバニラ ニューラル ネットよりも理論分析にはるかに適していることを実証し、数学的保証と経験的調査の両方を通じて、マトリックス センシングのコンテキストにおけるその有効性を確認します。
私たちは、SNN アーキテクチャが幅広いクラスの行列学習シナリオに幅広く適用できる可能性があると信じています。
要約(オリジナル)
The phenomenon of implicit regularization has attracted interest in recent years as a fundamental aspect of the remarkable generalizing ability of neural networks. In a nutshell, it entails that gradient descent dynamics in many neural nets, even without any explicit regularizer in the loss function, converges to the solution of a regularized learning problem. However, known results attempting to theoretically explain this phenomenon focus overwhelmingly on the setting of linear neural nets, and the simplicity of the linear structure is particularly crucial to existing arguments. In this paper, we explore this problem in the context of more realistic neural networks with a general class of non-linear activation functions, and rigorously demonstrate the implicit regularization phenomenon for such networks in the setting of matrix sensing problems, together with rigorous rate guarantees that ensure exponentially fast convergence of gradient descent.In this vein, we contribute a network architecture called Spectral Neural Networks (abbrv. SNN) that is particularly suitable for matrix learning problems. Conceptually, this entails coordinatizing the space of matrices by their singular values and singular vectors, as opposed to by their entries, a potentially fruitful perspective for matrix learning. We demonstrate that the SNN architecture is inherently much more amenable to theoretical analysis than vanilla neural nets and confirm its effectiveness in the context of matrix sensing, via both mathematical guarantees and empirical investigations. We believe that the SNN architecture has the potential to be of wide applicability in a broad class of matrix learning scenarios.
arxiv情報
著者 | Hong T. M. Chu,Subhro Ghosh,Chi Thanh Lam,Soumendu Sundar Mukherjee |
発行日 | 2024-02-27 15:28:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google