要約
残差ニューラルネットワークは最先端の深層学習モデルである。その連続深度アナログであるニューラル常微分方程式(ODE)も広く使われている。その成功にもかかわらず、離散モデルと連続モデルの間のリンクは、まだしっかりとした数学的基礎を欠いている。本稿では、勾配流を用いて訓練された非線形ネットワークに対して、ニューラルODEに向けた深層残差ネットワークの暗黙的正則化を確立することで、この方向への一歩を踏み出す。ネットワークがニューラルODEの離散化として初期化された場合、そのような離散化は訓練中も維持されることを証明する。我々の結果は、ネットワークがPolyak-Lojasiewicz条件を満たす限り、有限の訓練時間、および訓練時間が無限大になるにつれて有効である。重要なことに、この条件は、残差ネットワークが2層パーセプトロンであり、幅のオーバーパラメタ化が線形である場合にのみ成立し、勾配フローがグローバルミニマムに収束することを意味する。数値実験により我々の結果を説明する。
要約(オリジナル)
Residual neural networks are state-of-the-art deep learning models. Their continuous-depth analog, neural ordinary differential equations (ODEs), are also widely used. Despite their success, the link between the discrete and continuous models still lacks a solid mathematical foundation. In this article, we take a step in this direction by establishing an implicit regularization of deep residual networks towards neural ODEs, for nonlinear networks trained with gradient flow. We prove that if the network is initialized as a discretization of a neural ODE, then such a discretization holds throughout training. Our results are valid for a finite training time, and also as the training time tends to infinity provided that the network satisfies a Polyak-Lojasiewicz condition. Importantly, this condition holds for a family of residual networks where the residuals are two-layer perceptrons with an overparameterization in width that is only linear, and implies the convergence of gradient flow to a global minimum. Numerical experiments illustrate our results.
arxiv情報
著者 | Pierre Marion,Yu-Han Wu,Michael E. Sander,Gérard Biau |
発行日 | 2024-03-01 10:54:13+00:00 |
arxivサイト | arxiv_id(pdf) |