要約
最近の研究では、機械学習の最適化では、勾配降下法 (GD) が安定性の境界 (EoS) [Cohen, et al., 2021] で動作することが多く、ステップサイズが大きく設定されているため、非単調損失が発生することが観察されています。
GD の反復によって引き起こされます。
この論文では、EoS 領域の線形分離可能なデータに対するロジスティック回帰に対する一定ステップサイズ GD の収束と暗黙的なバイアスを研究します。
局所振動が存在するにもかかわらず、長い時間スケールにわたって任意の一定のステップサイズを使用する GD によってロジスティック損失を最小化できることを証明します。
さらに、一定のステップサイズでは、GD 反復は最大マージン方向 (ハードマージン SVM 方向) に投影されると無限大になる傾向があり、直交補数に投影されると強い凸ポテンシャルを最小限に抑える固定ベクトルに収束することを証明します。
最大マージン方向の。
対照的に、EoS 体制では、GD 反復が指数関数的損失の下で壊滅的に発散する可能性があることも示し、ロジスティック損失の優位性を強調しています。
これらの理論的発見は数値シミュレーションと一致しており、ステップサイズが十分に小さい場合にのみ適用できる GD の収束と暗黙的なバイアスに関する既存の理論を補完します。
要約(オリジナル)
Recent research has observed that in machine learning optimization, gradient descent (GD) often operates at the edge of stability (EoS) [Cohen, et al., 2021], where the stepsizes are set to be large, resulting in non-monotonic losses induced by the GD iterates. This paper studies the convergence and implicit bias of constant-stepsize GD for logistic regression on linearly separable data in the EoS regime. Despite the presence of local oscillations, we prove that the logistic loss can be minimized by GD with any constant stepsize over a long time scale. Furthermore, we prove that with any constant stepsize, the GD iterates tend to infinity when projected to a max-margin direction (the hard-margin SVM direction) and converge to a fixed vector that minimizes a strongly convex potential when projected to the orthogonal complement of the max-margin direction. In contrast, we also show that in the EoS regime, GD iterates may diverge catastrophically under the exponential loss, highlighting the superiority of the logistic loss. These theoretical findings are in line with numerical simulations and complement existing theories on the convergence and implicit bias of GD, which are only applicable when the stepsizes are sufficiently small.
arxiv情報
著者 | Jingfeng Wu,Vladimir Braverman,Jason D. Lee |
発行日 | 2023-05-19 16:24:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google