SCORE: Approximating Curvature Information under Self-Concordant Regularization

要約

目的に正則化関数を含む最適化問題は、多くのアプリケーションで定期的に解決されます。
このような問題に対して 2 次法を求める場合、解法ステップで曲率情報を考慮して収束を高速化するときに、これらの正則化関数のいくつかの特定の特性を利用することが望ましい場合があります。
この論文では、凸最適化のためのニュートン減分フレームワークに二次情報を組み込んだ、制約なし最小化問題のための SCORE (自己一致正則化) フレームワークを提案します。
新しい入力バッチを受け取るたびに最小化変数を更新する、一般化された自己一致正則化ガウス ニュートン (GGN-SCORE) アルゴリズムを提案します。
提案されたアルゴリズムは、ヘッセ行列の 2 次情報の構造を利用し、それによって計算オーバーヘッドを削減します。
GGN-SCORE は、提案された SCORE フレームワークの下で正則化された最小化を伴う問題に対するモデルの一般化を改善しながら、収束を高速化する方法を示します。
数値実験では、ベースラインの一次法および準ニュートン法と比べて優れた、私たちの方法の効率とその高速収束を示しています。
非凸(過剰パラメータ化)ニューラル ネットワークのトレーニング問題を含む追加の実験により、提案された方法が非凸の最適化に有望であることが示されました。

要約(オリジナル)

Optimization problems that include regularization functions in their objectives are regularly solved in many applications. When one seeks second-order methods for such problems, it may be desirable to exploit specific properties of some of these regularization functions when accounting for curvature information in the solution steps to speed up convergence. In this paper, we propose the SCORE (self-concordant regularization) framework for unconstrained minimization problems which incorporates second-order information in the Newton-decrement framework for convex optimization. We propose the generalized Gauss-Newton with Self-Concordant Regularization (GGN-SCORE) algorithm that updates the minimization variables each time it receives a new input batch. The proposed algorithm exploits the structure of the second-order information in the Hessian matrix, thereby reducing computational overhead. GGN-SCORE demonstrates how to speed up convergence while also improving model generalization for problems that involve regularized minimization under the proposed SCORE framework. Numerical experiments show the efficiency of our method and its fast convergence, which compare favorably against baseline first-order and quasi-Newton methods. Additional experiments involving non-convex (overparameterized) neural network training problems show that the proposed method is promising for non-convex optimization.

arxiv情報

著者 Adeyemi D. Adeoye,Alberto Bemporad
発行日 2023-07-10 14:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク