On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width

要約

二次最適化は、ディープ ニューラル ネットワークのトレーニングを高速化するために開発され、ますます大規模なモデルに適用されています。
本研究では、さらなる大規模なトレーニングに向けて、ネットワーク幅が大幅に増加した場合でも安定した方法で特徴学習を促進する二次最適化のための具体的なパラメータ化を特定します。
最大更新パラメータ化にヒントを得て、勾配の 1 ステップ更新を検討し、ランダム初期化、学習率、減衰項を含むハイパーパラメータの適切なスケールを明らかにします。
私たちのアプローチは、K-FAC と Shampoo という 2 つの主要な 2 次最適化アルゴリズムをカバーしており、パラメーター化により特徴学習においてより高い汎化パフォーマンスが達成されることを実証します。
特に、幅が異なるモデル間でハイパーパラメータを転送できるようになります。

要約(オリジナル)

Second-order optimization has been developed to accelerate the training of deep neural networks and it is being applied to increasingly larger-scale models. In this study, towards training on further larger scales, we identify a specific parameterization for second-order optimization that promotes feature learning in a stable manner even if the network width increases significantly. Inspired by a maximal update parameterization, we consider a one-step update of the gradient and reveal the appropriate scales of hyperparameters including random initialization, learning rates, and damping terms. Our approach covers two major second-order optimization algorithms, K-FAC and Shampoo, and we demonstrate that our parameterization achieves higher generalization performance in feature learning. In particular, it enables us to transfer the hyperparameters across models with different widths.

arxiv情報

著者 Satoki Ishikawa,Ryo Karakida
発行日 2023-12-19 15:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク