Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning

要約

深層学習ネットワークで $\mathcal{L}^2$ コスト関数の最小化に広く使用されている勾配降下フローを考慮し、2 つの修正バージョンを紹介します。
1 つは過剰なパラメータ化された設定に適合し、もう 1 つは過小なパラメータ化された設定に適合します。
どちらも明確で自然な不変の幾何学的な意味を持ち、オーバーパラメータ化された設定でのプルバック ベクトル バンドル構造と、アンダーパラメータ化された設定でのプッシュフォワード ベクトル バンドル構造を考慮しています。
オーバーパラメータ化の場合、ランク条件が成立する限り、修正勾配降下法のすべての軌道が $\mathcal{L}^2$ コストを一様な指数収束率でそのグローバル最小値まで駆動することを証明します。
これにより、グローバル最小値への任意の所定の近傍に対するアプリオリな停止時間を得ることができる。
我々は後者とサブリーマン幾何学との関係を指摘する。

要約(オリジナル)

We consider the gradient descent flow widely used for the minimization of the $\mathcal{L}^2$ cost function in Deep Learning networks, and introduce two modified versions; one adapted for the overparametrized setting, and the other for the underparametrized setting. Both have a clear and natural invariant geometric meaning, taking into account the pullback vector bundle structure in the overparametrized, and the pushforward vector bundle structure in the underparametrized setting. In the overparametrized case, we prove that, provided that a rank condition holds, all orbits of the modified gradient descent drive the $\mathcal{L}^2$ cost to its global minimum at a uniform exponential convergence rate; one thereby obtains an a priori stopping time for any prescribed proximity to the global minimum. We point out relations of the latter to sub-Riemannian geometry.

arxiv情報

著者 Thomas Chen
発行日 2024-03-18 07:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 57R70, 62M45, cs.AI, cs.LG, math-ph, math.MP, math.OC, stat.ML パーマリンク