How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization

要約

この論文では、行列センシング問題の勾配降下法 (GD) の収束挙動がオーバーパラメータ化によってどのように変化するかを厳密に示します。目標は、等方性の近い線形測定から未知の低ランクのグラウンドトゥルース行列を回復することです。
まず、対称パラメータ化による対称設定を検討します。ここで、 $M^* \in \mathbb{R}^{n \times n}$ はランク $r \ll n$ の正の半定値未知行列であり、
対称パラメータ化 $XX^\top$ を使用して $M^*$ を学習します。
ここで $X \in \mathbb{R}^{n \times k}$ with $k > r$ が因数行列です。
$T$ が反復回数である場合、過剰パラメータ化された場合 ($k >r$) に対して、ランダムに初期化された GD の新しい $\Omega (1/T^2)$ 下限を与えます。
これは、収束率が $\exp (-\Omega (T))$ である正確なパラメータ化シナリオ ($k=r$) とはまったく対照的です。
次に、$M^* \in \mathbb{R}^{n_1 \times n_2}$ がランク $r \ll \min\{n_1,n_2\}$ の未知の行列である非対称設定を検討します。
$M^*$ を学習するための非対称パラメータ化 $FG^\top$ ここで、$F \in \mathbb{R}^{n_1 \times k}$ と $G \in \mathbb{R}^{n_2 \times k
}$。
以前の研究に基づいて、$\exp (-\Omega(T))$ レートで正確なパラメータ化のケース ($k=r$) に対してランダムに初期化された GD のグローバルな正確な収束結果を示します。
さらに、$\exp(-\Omega(\alpha^2 T))$ レートで過剰パラメータ化の場合 ($k>r$) に対する最初のグローバル正確な収束結果を与えます ($\alpha$ は初期化です)。
規模。
過剰パラメータ化の場合のこの線形収束の結果は、対称設定に非対称パラメータ化を適用して $\Omega (1/T^2)$ から線形収束までの速度を上げることができるため、特に重要です。
一方、GD の 1 ステップを変更するだけで、$\alpha$ に依存しない収束率を取得し、正確なパラメータ化の場合の収束率を回復する新しい方法を提案します。

要約(オリジナル)

This paper rigorously shows how over-parameterization changes the convergence behaviors of gradient descent (GD) for the matrix sensing problem, where the goal is to recover an unknown low-rank ground-truth matrix from near-isotropic linear measurements. First, we consider the symmetric setting with the symmetric parameterization where $M^* \in \mathbb{R}^{n \times n}$ is a positive semi-definite unknown matrix of rank $r \ll n$, and one uses a symmetric parameterization $XX^\top$ to learn $M^*$. Here $X \in \mathbb{R}^{n \times k}$ with $k > r$ is the factor matrix. We give a novel $\Omega (1/T^2)$ lower bound of randomly initialized GD for the over-parameterized case ($k >r$) where $T$ is the number of iterations. This is in stark contrast to the exact-parameterization scenario ($k=r$) where the convergence rate is $\exp (-\Omega (T))$. Next, we study asymmetric setting where $M^* \in \mathbb{R}^{n_1 \times n_2}$ is the unknown matrix of rank $r \ll \min\{n_1,n_2\}$, and one uses an asymmetric parameterization $FG^\top$ to learn $M^*$ where $F \in \mathbb{R}^{n_1 \times k}$ and $G \in \mathbb{R}^{n_2 \times k}$. Building on prior work, we give a global exact convergence result of randomly initialized GD for the exact-parameterization case ($k=r$) with an $\exp (-\Omega(T))$ rate. Furthermore, we give the first global exact convergence result for the over-parameterization case ($k>r$) with an $\exp(-\Omega(\alpha^2 T))$ rate where $\alpha$ is the initialization scale. This linear convergence result in the over-parameterization case is especially significant because one can apply the asymmetric parameterization to the symmetric setting to speed up from $\Omega (1/T^2)$ to linear convergence. On the other hand, we propose a novel method that only modifies one step of GD and obtains a convergence rate independent of $\alpha$, recovering the rate in the exact-parameterization case.

arxiv情報

著者 Nuoya Xiong,Lijun Ding,Simon S. Du
発行日 2023-11-24 18:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク