Spectral-factorized Positive-definite Curvature Learning for NN Training

要約

Adam(W)やShampooなどの多くのトレーニング方法は、肯定的な決定的な曲率マトリックスを学び、前処理前に逆根を適用します。
最近、シャンプーなどの非角質訓練方法は大きな注目を集めています。
ただし、それらは計算的に非効率的なままであり、マトリックス分解による費用のかかるマトリックスルート計算により、特定のタイプの曲率情報に限定されています。
これに対処するために、任意のマトリックス根と一般的な曲率学習の効率的な適用を可能にするために、スペクトル因子分解陽性定義の曲率推定を動的に適応させるリーマニアの最適化アプローチを提案します。
肯定的なマトリックス最適化と勾配のない最適化のための共分散適応におけるアプローチの有効性と汎用性、ならびに神経ネットトレーニングのための曲率学習の効率性を示します。

要約(オリジナル)

Many training methods, such as Adam(W) and Shampoo, learn a positive-definite curvature matrix and apply an inverse root before preconditioning. Recently, non-diagonal training methods, such as Shampoo, have gained significant attention; however, they remain computationally inefficient and are limited to specific types of curvature information due to the costly matrix root computation via matrix decomposition. To address this, we propose a Riemannian optimization approach that dynamically adapts spectral-factorized positive-definite curvature estimates, enabling the efficient application of arbitrary matrix roots and generic curvature learning. We demonstrate the efficacy and versatility of our approach in positive-definite matrix optimization and covariance adaptation for gradient-free optimization, as well as its efficiency in curvature learning for neural net training.

arxiv情報

著者 Wu Lin,Felix Dangel,Runa Eschenhagen,Juhan Bae,Richard E. Turner,Roger B. Grosse
発行日 2025-03-11 16:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク