Structured Preconditioners in Adaptive Optimization: A Unified Analysis

要約

オンライン後悔とオフラインの凸最適化の両方について、構造化された(例えば、層状、対角線、およびクロネッカーファクター)前委員会を備えた、幅広いクラスの適応最適化アルゴリズムの新しい統一分析を提示します。
我々の分析は、対角線アダグラード、フルマトリックスアダグラード、アダグラードノームなど、いくつかの重要な構造化された前処理されたアルゴリズムと一致するレートを提供するだけでなく、元のシャンプーの片側シャンプーの片面変異体の収束率を改善します。
興味深いことに、より構造化された前処理者(例:より少​​ないスペースと計算を使用する斜めのアダグラード、アダグラードノーム)は、フルマトリックスアダグラードの計算効率的な近似としてしばしば提示され、より良い近似による最適化パフォーマンスの改善を目的としています。
統一された分析は、この一般的な見解に挑戦し、おそらく驚くべきことに、より構造化された前提条件が、ステップあたりのスペースと計算を使用しても、より構造化されたカウンターパートを上回ることができることを明らかにします。
これを実証するために、フルマトリックスのアダグラードよりもはるかに安価な片側シャンプーが理論的にも実験的にも優れていることを示します。

要約(オリジナル)

We present a novel unified analysis for a broad class of adaptive optimization algorithms with structured (e.g., layerwise, diagonal, and kronecker-factored) preconditioners for both online regret minimization and offline convex optimization. Our analysis not only provides matching rate to several important structured preconditioned algorithms including diagonal AdaGrad, full-matrix AdaGrad, and AdaGrad-Norm, but also gives an improved convergence rate for a one-sided variant of Shampoo over that of original Shampoo. Interestingly, more structured preconditioners (e.g., diagonal Adagrad, AdaGrad-Norm which use less space and compute) are often presented as computationally efficient approximations to full-matrix Adagrad, aiming for improved optimization performance through better approximations. Our unified analysis challenges this prevailing view and reveals, perhaps surprisingly, that more structured preconditioners, despite using less space and computation per step, can outperform their less structured counterparts. To demonstrate this, we show that one-sided Shampoo, which is relatively much cheaper than full-matrix AdaGrad could outperform it both theoretically and experimentally.

arxiv情報

著者 Shuo Xie,Tianhao Wang,Sashank Reddi,Sanjiv Kumar,Zhiyuan Li
発行日 2025-03-13 16:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク