Propagation of Chaos in One-hidden-layer Neural Networks beyond Logarithmic Time

要約

多項式幅ニューラルネットワークのダイナミクスとその無限幅の対応物との間の近似ギャップを研究します。
平均フィールドダイナミクスによって支配された微分方程式を通して、この近似ギャップを緊密に結合する方法を示します。
このオードの成長に影響を与える重要な要因は、各粒子の局所的なヘシアンであり、その位置に関する平均場ダイナミクスにおける粒子の速度の誘導体として定義されます。
適切に指定されたシングルインデックスモデルを推定するという標準機能学習問題に結果を適用します。
情報指数を任意に大きくすることを許可し、周囲の次元で多項式に成長する収束時間に至ります。
これらの問題における特定の「自己矛盾」の特性により、粒子の局所ヘシアンは粒子の速度の一定の倍に境界を搭載しているため、トレーニング全体の平均フィールドダイナミクスを綿密に近似するのに十分な多項式では、多項式的に多くのニューロンが十分です。

要約(オリジナル)

We study the approximation gap between the dynamics of a polynomial-width neural network and its infinite-width counterpart, both trained using projected gradient descent in the mean-field scaling regime. We demonstrate how to tightly bound this approximation gap through a differential equation governed by the mean-field dynamics. A key factor influencing the growth of this ODE is the local Hessian of each particle, defined as the derivative of the particle’s velocity in the mean-field dynamics with respect to its position. We apply our results to the canonical feature learning problem of estimating a well-specified single-index model; we permit the information exponent to be arbitrarily large, leading to convergence times that grow polynomially in the ambient dimension $d$. We show that, due to a certain “self-concordance” property in these problems — where the local Hessian of a particle is bounded by a constant times the particle’s velocity — polynomially many neurons are sufficient to closely approximate the mean-field dynamics throughout training.

arxiv情報

著者 Margalit Glasgow,Denny Wu,Joan Bruna
発行日 2025-04-17 17:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク