要約
深いニューラルネットワークの強力な表現学習能力にもかかわらず、ネットワークが意味のある機能学習とグローバル収束を同時に達成する方法の理論的理解はとらえどころのないままです。
特徴がこのパラメーター化における初期化に近いままであり、実質的な進化中に特徴特性に関するオープンな質問を残すため、神経接線カーネル(NTK)のような既存のアプローチは限られています。
このホワイトペーパーでは、テンソルプログラム(TP)フレームワークを使用して、無限に広い$ L $ -LAYER NEURAL NETWORKSのトレーニングダイナミクスを調査します。
具体的には、最大更新パラメーター化($ \ mu $ p)の下で確率的勾配降下(SGD)と活性化関数の軽度の条件で訓練された場合、SGDはこれらのネットワークが初期値から実質的に逸脱する線形独立した特徴を学習できることを示します。
この豊富な機能スペースは、関連するデータ情報をキャプチャし、トレーニングプロセスの収束ポイントがグローバルな最低であることを保証します。
分析は、レイヤー間の機能間の相互作用とガウスランダム変数の特性の両方を活用し、深い表現学習に関する新しい洞察を提供します。
さらに、実際のデータセットでの実験を通じて理論的な調査結果を検証します。
要約(オリジナル)
Despite deep neural networks’ powerful representation learning capabilities, theoretical understanding of how networks can simultaneously achieve meaningful feature learning and global convergence remains elusive. Existing approaches like the neural tangent kernel (NTK) are limited because features stay close to their initialization in this parametrization, leaving open questions about feature properties during substantial evolution. In this paper, we investigate the training dynamics of infinitely wide, $L$-layer neural networks using the tensor program (TP) framework. Specifically, we show that, when trained with stochastic gradient descent (SGD) under the Maximal Update parametrization ($\mu$P) and mild conditions on the activation function, SGD enables these networks to learn linearly independent features that substantially deviate from their initial values. This rich feature space captures relevant data information and ensures that any convergent point of the training process is a global minimum. Our analysis leverages both the interactions among features across layers and the properties of Gaussian random variables, providing new insights into deep representation learning. We further validate our theoretical findings through experiments on real-world datasets.
arxiv情報
著者 | Zixiang Chen,Greg Yang,Qingyue Zhao,Quanquan Gu |
発行日 | 2025-03-12 17:33:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google