Ginger: An Efficient Curvature Approximation with Linear Complexity for General Neural Networks

要約

一般化ガウス・ニュートン法のような2次最適化アプローチは、前提条件行列を用いて目的関数の曲率情報を利用するため、より強力であると考えられている。理論的には魅力的な利点があるものの、現代のディープラーニングには簡単に適用できない。その主な理由は、行列の逆行列を計算するための2次関数的なメモリと3次関数的な時間の複雑さにある。これらの要件は、最先端のハードウェアであっても実現不可能である。本研究では、一般化ガウス・ニュートン行列の逆行列のための固有値分解Gingerを提案する。我々の手法は、各反復において効率的な線形メモリと時間複雑性を享受する。条件行列を近似する代わりに、その逆行列を直接保持することで、近似をより正確にする。非凸目的に対するGingerの収束結果を提供する。異なるモデル・アーキテクチャを持つ様々なタスクに対する実験により、本手法の有効性を検証する。我々のコードは公開されている。

要約(オリジナル)

Second-order optimization approaches like the generalized Gauss-Newton method are considered more powerful as they utilize the curvature information of the objective function with preconditioning matrices. Albeit offering tempting theoretical benefits, they are not easily applicable to modern deep learning. The major reason is due to the quadratic memory and cubic time complexity to compute the inverse of the matrix. These requirements are infeasible even with state-of-the-art hardware. In this work, we propose Ginger, an eigendecomposition for the inverse of the generalized Gauss-Newton matrix. Our method enjoys efficient linear memory and time complexity for each iteration. Instead of approximating the conditioning matrix, we directly maintain its inverse to make the approximation more accurate. We provide the convergence result of Ginger for non-convex objectives. Our experiments on different tasks with different model architectures verify the effectiveness of our method. Our code is publicly available.

arxiv情報

著者 Yongchang Hao,Yanshuai Cao,Lili Mou
発行日 2024-02-05 18:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク