Why Transformers Need Adam: A Hessian Perspective

要約

『トランスフォーマー』ではSGDのパフォーマンスがアダムより大幅に劣っているが、その理由は不明のままだ。
この研究では、ヘッセ行列のレンズを通して、トランスフォーマに対する SGD の悪いパフォーマンスについて説明します。(i) トランスフォーマは「異質」です。パラメータ ブロック全体のヘッセ行列のスペクトルは劇的に変化します。これを「ブロック異質性」と呼びます。
(ii) 異種性が SGD を妨げる: SGD は、ブロックの異種性の問題に対してパフォーマンスが悪くなります。
異質性が SGD の妨げとなることを検証するために、さまざまなトランスフォーマー、CNN、MLP、二次問題をチェックしたところ、SGD はブロック異質性のない問題ではうまく機能するが、異質性が存在する場合にはパフォーマンスが低下することがわかりました。
最初の理論分析では、SGD は単一の学習率をすべてのブロックに適用するため、ブロック間の異質性に対処できないため、パフォーマンスが低いことがわかりました。
Adam で設計されたように、座標ごとの学習率を使用すると、この制限が改善される可能性があります。

要約(オリジナル)

SGD performs worse than Adam by a significant margin on Transformers, but the reason remains unclear. In this work, we provide an explanation of SGD’s bad performance on Transformers through the lens of Hessian: (i) Transformers are ‘heterogeneous’: the Hessian spectrum across parameter blocks vary dramatically, a phenomenon we call ‘block heterogeneity’; (ii) Heterogeneity hampers SGD: SGD performs badly on problems with block heterogeneity. To validate that heterogeneity hampers SGD, we check various Transformers, CNNs, MLPs, and quadratic problems, and find that SGD works well on problems without block heterogeneity but performs badly when the heterogeneity exists. Our initial theoretical analysis indicates that SGD performs poorly because it applies one single learning rate to all blocks, which cannot handle the heterogeneity among blocks. This limitation could be ameliorated if we use coordinate-wise learning rates, as designed in Adam.

arxiv情報

著者 Yushun Zhang,Congliang Chen,Tian Ding,Ziniu Li,Ruoyu Sun,Zhi-Quan Luo
発行日 2024-05-27 16:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク