Level Set Teleportation: An Optimization Perspective

要約

目標のレベルセットで勾配基準を最大化することにより、勾配降下(GD)を加速しようとする最適化ルーチンであるテレポーテーションを研究します。
テレポーテーションはより大きなステップを介して直感的にスピードアップされますが、現在の作業には凸関数の収束理論、テレポーテーションオペレーターの解決の保証、さらにはこの加速を示す明確な経験的証拠さえありません。
これらの未解決の質問を解決します。
ヘシアンの安定性を満たす凸関数の場合、テレポーテーションを備えたGDが、最適ギャップが小さいときにGDよりも厳密に高速なサブ線形/線形収束速度を組み合わせて得ることを証明します。
これは、テレポーテーションが収束を改善せず、悪化させない標準的な(強い)凸状の設定とは対照的です。
実際にテレポーテーションを評価するために、ヘシアンベクトル製品のみを必要とする投影段階的な方法を開発します。
これを使用して、テレポーテーションオラクルへのアクセスを伴うグラデーションメソッドを示して、さまざまな問題について標準バージョンを実行します。
また、テレポートを備えたGDは、特に非凸最適化のために、切り捨てられたニュートン法よりも速いことがわかります。

要約(オリジナル)

We study level set teleportation, an optimization routine which tries to accelerate gradient descent (GD) by maximizing the gradient norm over a level set of the objective. While teleportation intuitively speeds-up GD via bigger steps, current work lacks convergence theory for convex functions, guarantees for solving the teleportation operator, and even clear empirical evidence showing this acceleration. We resolve these open questions. For convex functions satisfying Hessian stability, we prove that GD with teleportation obtains a combined sub-linear/linear convergence rate which is strictly faster than GD when the optimality gap is small. This is in sharp contrast to the standard (strongly) convex setting, where teleportation neither improves nor worsens convergence. To evaluate teleportation in practice, we develop a projected-gradient method requiring only Hessian-vector products. We use this to show that gradient methods with access to a teleportation oracle out-perform their standard versions on a variety of problems. We also find that GD with teleportation is faster than truncated Newton methods, particularly for non-convex optimization.

arxiv情報

著者 Aaron Mishkin,Alberto Bietti,Robert M. Gower
発行日 2025-03-18 17:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク