Preconditioned Gradient Descent for Overparameterized Nonconvex Burer–Monteiro Factorization with Global Optimality Certification

要約

タイトル:Global Optimality Certificationを用いたOverparameterized Nonconvex Burer – Monteiro分解のための事前調整済み勾配降下法

要約:
– $n \times r$因子行列 $X$ 上でノンコンバックス関数 $f(X) = \phi(XX^T)$ を最小化するための勾配降下法を考えます。ここで $\phi$ は $n \times n$ 行列に対して定義された底層の滑らかな凸コスト関数です。
– 2次の局所最適点しか合理的な時間内に証明することができないが、$X$ がランク欠如である場合、そのランク欠如はそれがグローバルな最適解であることを証明する。
– この方法によるグローバル最適性の証明には、現在の反復 $X$ の検索ランク $r$ がグローバル最小化子 $X^*$ のランク $r^ * $ に対してオーバーパラメータ化されていることが必要です。
– 残念ながら、オーバーパラメータ化は、$\phi$が強く凸であっても、$r = r^ * $ の場合の線形率から、$r> r ^ * $ の場合のサブリニア率まで、勾配降下の収束を著しく遅らせます。
– この論文では、オーバーパラメータ化ケースで勾配降下の収束率を線形に回復する手頃な事前調整子を提案し、それによりグローバル最小化子$X^*$に起因する可能性のある不良条件にも対応します。

要約(オリジナル)

We consider using gradient descent to minimize the nonconvex function $f(X)=\phi(XX^{T})$ over an $n\times r$ factor matrix $X$, in which $\phi$ is an underlying smooth convex cost function defined over $n\times n$ matrices. While only a second-order stationary point $X$ can be provably found in reasonable time, if $X$ is additionally rank deficient, then its rank deficiency certifies it as being globally optimal. This way of certifying global optimality necessarily requires the search rank $r$ of the current iterate $X$ to be overparameterized with respect to the rank $r^{\star}$ of the global minimizer $X^{\star}$. Unfortunately, overparameterization significantly slows down the convergence of gradient descent, from a linear rate with $r=r^{\star}$ to a sublinear rate when $r>r^{\star}$, even when $\phi$ is strongly convex. In this paper, we propose an inexpensive preconditioner that restores the convergence rate of gradient descent back to linear in the overparameterized case, while also making it agnostic to possible ill-conditioning in the global minimizer $X^{\star}$.

arxiv情報

著者 Gavin Zhang,Salar Fattahi,Richard Y. Zhang
発行日 2023-04-20 22:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク