Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective

要約

Adam(W) のような適応勾配オプティマイザーは、トランスフォーマーなどの多くの深層学習アーキテクチャのデフォルトのトレーニング アルゴリズムです。
それらの対角プレコンディショナーは、平方根を介してパラメーター更新に組み込まれる勾配外積に基づいています。
これらの手法は近似二次手法として動機づけられることが多いですが、平方根は根本的な違いを表します。
この研究では、ルートを削除したとき、つまり二次動機を強化したときに、適応手法の動作がどのように変化するかを調査します。
驚くべきことに、このような平方根フリーの適応手法は、変換器でのルートベースの対応する手法のパフォーマンスを維持しながら、畳み込みアーキテクチャでの SGD との一般化ギャップを縮めることがわかりました。
二次パースペクティブには、前処理条件の不変性の概念を通じて、非対角適応手法の開発にも実用的な利点があります。
シャンプーのようなルートベースのメソッドとは対照的に、ルートフリーの対応物は数値的に不安定な行列ルートの分解や逆変換を必要としないため、半精度で適切に機能します。
私たちの調査結果は、適応型手法の開発に関する新たな洞察を提供し、現在見落とされている適応型手法の成功への役割に関する重要な疑問を提起します。

要約(オリジナル)

Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e. strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart’s performance on transformers. The second-order perspective also has practical benefits for the development of non-diagonal adaptive methods through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, the root-free counterparts do not require numerically unstable matrix root decompositions and inversions, thus work well in half precision. Our findings provide new insights into the development of adaptive methods and raise important questions regarding the currently overlooked role of adaptivity for their success.

arxiv情報

著者 Wu Lin,Felix Dangel,Runa Eschenhagen,Juhan Bae,Richard E. Turner,Alireza Makhzani
発行日 2024-06-04 17:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク