Gradient Descent on Logistic Regression with Non-Separable Data and Large Step Sizes

要約

私たちは、大きく一定のステップ サイズを使用したロジスティック回帰問題に関する勾配降下 (GD) ダイナミクスを研究します。
線形分離可能なデータの場合、GD は任意の大きなステップ サイズで最小化関数に収束することが知られていますが、問題が分離不可能な場合にはこの特性はもはや当てはまりません。
実際、動作はさらに複雑になる可能性があります。一連の周期 2 倍分岐は、臨界ステップ サイズ $2/\lambda$ で始まります。$\lambda$ は、解におけるヘッセ行列の最大固有値です。
臨界値より小さいステップ サイズを使用すると、解の近くで初期化された場合に収束が保証されます。しかし、これは全体的には十分でしょうか?
1 つの次元では、$1/\lambda$ 未満のステップ サイズで大域収束に十分であることを示します。
ただし、$1/\lambda$ と臨界ステップ サイズ $2/\lambda$ の間のすべてのステップ サイズについて、GD が安定したサイクルに収束するようにデータセットを構築できます。
高次元では、$1/\lambda$ 未満のステップ サイズでもこれが実際に可能です。
私たちの結果は、局所的な収束は臨界ステップ サイズ未満のすべてのステップ サイズに対して保証されていますが、グローバルな収束は保証されておらず、初期化に応じて GD がサイクルに収束する可能性があることを示しています。

要約(オリジナル)

We study gradient descent (GD) dynamics on logistic regression problems with large, constant step sizes. For linearly-separable data, it is known that GD converges to the minimizer with arbitrarily large step sizes, a property which no longer holds when the problem is not separable. In fact, the behaviour can be much more complex — a sequence of period-doubling bifurcations begins at the critical step size $2/\lambda$, where $\lambda$ is the largest eigenvalue of the Hessian at the solution. Using a smaller-than-critical step size guarantees convergence if initialized nearby the solution: but does this suffice globally? In one dimension, we show that a step size less than $1/\lambda$ suffices for global convergence. However, for all step sizes between $1/\lambda$ and the critical step size $2/\lambda$, one can construct a dataset such that GD converges to a stable cycle. In higher dimensions, this is actually possible even for step sizes less than $1/\lambda$. Our results show that although local convergence is guaranteed for all step sizes less than the critical step size, global convergence is not, and GD may instead converge to a cycle depending on the initialization.

arxiv情報

著者 Si Yi Meng,Antonio Orvieto,Daniel Yiming Cao,Christopher De Sa
発行日 2024-06-07 15:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク