要約
私たちはディープ ニューラル ネットワークのトレーニングのための勾配流の収束を研究します。
残差ニューラル ネットワークが非常に深いアーキテクチャの一般的な例である場合、そのトレーニングは、特に目標の非凸性と非保磁性により、困難な最適化問題を構成します。
しかし、アプリケーションでは、これらのタスクは勾配降下法などの単純な最適化アルゴリズムによって首尾よく解決されます。
この現象をよりよく理解するために、ここでは、層とパラメータの積セットにわたる確率測度によってパラメータ化され、層のセット上の一定の限界を伴う、無限に深くて任意の幅を持つ ResNet の「平均場」モデルに焦点を当てます。
実際、浅いニューラル ネットワークの場合、平均場モデルは、確率尺度のセットで Wasserstein メトリクスの勾配フローを使用してトレーニングした場合、単純化された損失ランドスケープと優れた理論的保証から恩恵を受けることが証明されています。
このアプローチを動機として、私たちは勾配流を使用してモデルをトレーニングすることを提案します。
条件付き最適輸送距離: 限界条件を強制する古典的なワッサーシュタイン距離の制限。
計量空間における勾配流れの理論に基づいて、勾配流れ方程式の適切な設定と、有限幅での ResNet のトレーニングとの一貫性を最初に示します。
ローカル Polyak-\L{}ojasiewicz 解析を実行して、適切に選択された初期化に対する勾配流の収束を示します。特徴の数が有限であるが十分に大きく、初期化時のリスクが十分に小さい場合、勾配流は次の方向に収束します。
グローバルミニマイザー。
これは、無限の深さと任意の幅の ResNet に対するこのタイプの最初の結果です。
要約(オリジナル)
We study the convergence of gradient flow for the training of deep neural networks. If Residual Neural Networks are a popular example of very deep architectures, their training constitutes a challenging optimization problem due notably to the non-convexity and the non-coercivity of the objective. Yet, in applications, those tasks are successfully solved by simple optimization algorithms such as gradient descent. To better understand this phenomenon, we focus here on a “mean-field” model of infinitely deep and arbitrarily wide ResNet, parameterized by probability measures over the product set of layers and parameters and with constant marginal on the set of layers. Indeed, in the case of shallow neural networks, mean field models have proven to benefit from simplified loss-landscapes and good theoretical guarantees when trained with gradient flow for the Wasserstein metric on the set of probability measures. Motivated by this approach, we propose to train our model with gradient flow w.r.t. the conditional Optimal Transport distance: a restriction of the classical Wasserstein distance which enforces our marginal condition. Relying on the theory of gradient flows in metric spaces we first show the well-posedness of the gradient flow equation and its consistency with the training of ResNets at finite width. Performing a local Polyak-\L{}ojasiewicz analysis, we then show convergence of the gradient flow for well-chosen initializations: if the number of features is finite but sufficiently large and the risk is sufficiently small at initialization, the gradient flow converges towards a global minimizer. This is the first result of this type for infinitely deep and arbitrarily wide ResNets.
arxiv情報
著者 | Raphaël Barboni,Gabriel Peyré,François-Xavier Vialard |
発行日 | 2024-03-19 16:34:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google