Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time

要約

2 層ニューラル ネットワークの非凸最適化に関する最近の理論的進歩にも関わらず、不自然な変更を加えないニューラル ネットワーク上の勾配降下法がカーネル法よりも優れたサンプルの複雑さを達成できるかどうかは依然として未解決の問題です。
この論文では、多項式幅の 2 層ニューラル ネットワーク上の投影勾配流のクリーンな平均場解析を提供します。
これまでの研究とは異なり、私たちの分析では最適化アルゴリズムの不自然な変更は必要ありません。
サンプル サイズ $n = O(d^{3.1})$ ($d$ は入力の次元) の場合、ネットワークは多項式的に多くの反復で、次のカーネル メソッドでは達成できない重要なエラーに収束することを証明します。
$n \ll d^4$ サンプルであるため、未修正の勾配降下法と NTK が明確に区別されていることを示しています。

要約(オリジナル)

Despite recent theoretical progress on the non-convex optimization of two-layer neural networks, it is still an open question whether gradient descent on neural networks without unnatural modifications can achieve better sample complexity than kernel methods. This paper provides a clean mean-field analysis of projected gradient flow on polynomial-width two-layer neural networks. Different from prior works, our analysis does not require unnatural modifications of the optimization algorithm. We prove that with sample size $n = O(d^{3.1})$ where $d$ is the dimension of the inputs, the network converges in polynomially many iterations to a non-trivial error that is not achievable by kernel methods using $n \ll d^4$ samples, hence demonstrating a clear separation between unmodified gradient descent and NTK.

arxiv情報

著者 Arvind Mahankali,Jeff Z. Haochen,Kefan Dong,Margalit Glasgow,Tengyu Ma
発行日 2023-06-28 16:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク