要約
私たちは、一般的な非凸の最小化問題を解決するための確率的立方ニュートン法を研究します。
我々はヘルパー フレームワークと呼ぶ新しいフレームワークを提案します。このフレームワークは、グローバルな複雑さの保証を備えた、確率論的で分散を低減した 2 次アルゴリズムの統一されたビューを提供します。
補助情報を利用した学習にも応用できます。
当社のヘルパー フレームワークは、確率的立方ニュートン法の構築と分析に対する高い柔軟性をアルゴリズム設計者に提供し、任意のサイズのバッチ、および分散の削減と遅延ヘッセ更新の両方を組み込んだ、勾配とヘッセ行列のノイズが多く偏った推定値の使用を可能にします。
ノイズに関する弱い仮定の下で、確率的で分散が低減された 3 次ニュートンの最もよく知られた複雑さを回復します。
私たちの理論の直接の結果は、新しい遅延確率的 2 次法であり、これにより、大次元の問題の算術複雑さが大幅に改善されます。
また、凸型および強凸型の問題を含む、勾配が支配的な目的のクラスの複雑さの限界も確立します。
補助学習については、特定の類似性尺度が小さい場合、ヘルパー (補助関数) を使用すると、単独でトレーニングするよりも優れたパフォーマンスを発揮できることを示します。
要約(オリジナル)
We study stochastic Cubic Newton methods for solving general possibly non-convex minimization problems. We propose a new framework, which we call the helper framework, that provides a unified view of the stochastic and variance-reduced second-order algorithms equipped with global complexity guarantees. It can also be applied to learning with auxiliary information. Our helper framework offers the algorithm designer high flexibility for constructing and analyzing the stochastic Cubic Newton methods, allowing arbitrary size batches, and the use of noisy and possibly biased estimates of the gradients and Hessians, incorporating both the variance reduction and the lazy Hessian updates. We recover the best-known complexities for the stochastic and variance-reduced Cubic Newton, under weak assumptions on the noise. A direct consequence of our theory is the new lazy stochastic second-order method, which significantly improves the arithmetic complexity for large dimension problems. We also establish complexity bounds for the classes of gradient-dominated objectives, that include convex and strongly convex problems. For Auxiliary Learning, we show that using a helper (auxiliary function) can outperform training alone if a given similarity measure is small.
arxiv情報
著者 | El Mahdi Chayti,Nikita Doikov,Martin Jaggi |
発行日 | 2023-09-06 14:38:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google