Over-Parameterization Exponentially Slows Down Gradient Descent for Learning a Single Neuron

要約

二乗損失を伴うガウス入力の下で ReLU 活性化を使用して単一のニューロンを学習する問題を再検討します。
特に、学生ネットワークに $n\ge 2$ ニューロンがある過剰パラメータ設定に注目します。
$O\left(T^{-3}\right)$ レートで、ランダムに初期化された勾配降下の大域収束を証明します。
これは、勾配降下が $\exp(-\Omega(T))$ レートを享受する正確なパラメーター化設定 ($n=1$) を超える、この問題の最初のグローバル収束結果です。
おそらく驚くべきことに、過剰パラメータ化設定でランダムに初期化された勾配フローの $\Omega\left(T^{-3}\right)$ 下限をさらに提示します。
これらの 2 つの境界は、収束速度の正確な特性をまとめて提供し、初めて、過度のパラメータ化が収束速度を指数関数的に遅くする可能性があることを意味します。
グローバルな収束を証明するには、勾配降下ダイナミクスにおける学生ニューロン間の相互作用に取り組む必要があります。これは、正確なパラメーター化の場合には存在しません。
三相構造を使用して、GD のダイナミクスを分析します。
その過程で、勾配降下法が学生のニューロンのバランスを自動的にとることを証明し、この特性を使用して目的関数の非平滑性を処理します。
収束率の下限を証明するために、スチューデント ニューロン間のペアごとの距離を特徴付ける新しいポテンシャル関数を構築します (正確なパラメーター化の場合は実行できません)。
このポテンシャル関数がゆっくりと収束することを示します。これは、損失関数の収束速度が遅いことを意味します。

要約(オリジナル)

We revisit the problem of learning a single neuron with ReLU activation under Gaussian input with square loss. We particularly focus on the over-parameterization setting where the student network has $n\ge 2$ neurons. We prove the global convergence of randomly initialized gradient descent with a $O\left(T^{-3}\right)$ rate. This is the first global convergence result for this problem beyond the exact-parameterization setting ($n=1$) in which the gradient descent enjoys an $\exp(-\Omega(T))$ rate. Perhaps surprisingly, we further present an $\Omega\left(T^{-3}\right)$ lower bound for randomly initialized gradient flow in the over-parameterization setting. These two bounds jointly give an exact characterization of the convergence rate and imply, for the first time, that over-parameterization can exponentially slow down the convergence rate. To prove the global convergence, we need to tackle the interactions among student neurons in the gradient descent dynamics, which are not present in the exact-parameterization case. We use a three-phase structure to analyze GD’s dynamics. Along the way, we prove gradient descent automatically balances student neurons, and use this property to deal with the non-smoothness of the objective function. To prove the convergence rate lower bound, we construct a novel potential function that characterizes the pairwise distances between the student neurons (which cannot be done in the exact-parameterization case). We show this potential function converges slowly, which implies the slow convergence rate of the loss function.

arxiv情報

著者 Weihang Xu,Simon S. Du
発行日 2023-02-20 15:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク