Convergence of Alternating Gradient Descent for Matrix Factorization

要約

固定ステップサイズ$eta > 0$の交互勾配降下(AGD)を非対称行列分解目的に適用することを考える。ランク$r$の行列$mathbf{A}に対して、以下のことを示す。\in ╱mathbb{R}^{m ╱times n}$であることを示す、最適な因数分解に到達するのに十分である。\ЪЪЪЪЪЪЪЪЪЪЪЪЪЪ\|を非定型的なランダム初期化から高確率で生成する。因子はランク$d>r$であり、$mathbf{X}_Tininmathbb{R}^{m}times d}$と$mathbf{Y}_Tininmathbb{R}^{n}times d}$となる。実験によると、提案した初期化は単に理論的な利点だけでなく、実際に勾配降下の収束を著しく向上させることが示唆された。その証明は概念的に簡単で、ランダムな初期化から始めて、十分な回数の反復で一様なPL-inequalityと一様なLipschitz smoothness constantが保証される。この証明方法は、より広いクラスの非凸型低ランク因子分解問題の収束解析を拡張し、簡略化するのに有用である。

要約(オリジナル)

We consider alternating gradient descent (AGD) with fixed step size $\eta > 0$, applied to the asymmetric matrix factorization objective. We show that, for a rank-$r$ matrix $\mathbf{A} \in \mathbb{R}^{m \times n}$, $T = \left( \left(\frac{\sigma_1(\mathbf{A})}{\sigma_r(\mathbf{A})}\right)^2 \log(1/\epsilon)\right)$ iterations of alternating gradient descent suffice to reach an $\epsilon$-optimal factorization $\| \mathbf{A} – \mathbf{X}_T^{\vphantom{\intercal}} \mathbf{Y}_T^{\intercal} \|_{\rm F}^2 \leq \epsilon \| \mathbf{A} \|_{\rm F}^2$ with high probability starting from an atypical random initialization. The factors have rank $d>r$ so that $\mathbf{X}_T\in\mathbb{R}^{m \times d}$ and $\mathbf{Y}_T \in\mathbb{R}^{n \times d}$. Experiments suggest that our proposed initialization is not merely of theoretical benefit, but rather significantly improves convergence of gradient descent in practice. Our proof is conceptually simple: a uniform PL-inequality and uniform Lipschitz smoothness constant are guaranteed for a sufficient number of iterations, starting from our random initialization. Our proof method should be useful for extending and simplifying convergence analyses for a broader class of nonconvex low-rank factorization problems.

arxiv情報

著者 Rachel Ward,Tamara G. Kolda
発行日 2023-05-11 16:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク