Why Transformers Need Adam: A Hessian Perspective

要約

『トランスフォーマー』ではSGDのパフォーマンスがアダムより大幅に劣っているが、その理由は不明のままだ。
この研究では、ヘッセ行列のレンズを通して説明を提供します。(i) トランスフォーマーは「異質」です。パラメーター ブロック全体のヘッセ行列のスペクトルは劇的に変化します。これを「ブロック異質性」と呼びます。
(ii) 異質性が SGD を妨げる: SGD は、ブロックの異質性の問題に関して Adam よりもパフォーマンスが悪くなります。
(i) と (ii) を検証するために、さまざまなトランスフォーマー、CNN、MLP、および二次問題をチェックしたところ、SGD はブロックの異質性がない問題では Adam と同等のパフォーマンスを発揮できますが、異質性が存在する場合には Adam よりもパフォーマンスが劣ることがわかりました。
最初の理論分析では、SGD は単一の学習率をすべてのブロックに適用するため、ブロック間の異質性に対処できないため、パフォーマンスが低下することがわかりました。
Adam で設計されたように、座標ごとの学習率を使用すると、この制限が改善される可能性があります。

要約(オリジナル)

SGD performs worse than Adam by a significant margin on Transformers, but the reason remains unclear. In this work, we provide an explanation through the lens of Hessian: (i) Transformers are ‘heterogeneous’: the Hessian spectrum across parameter blocks vary dramatically, a phenomenon we call ‘block heterogeneity’; (ii) Heterogeneity hampers SGD: SGD performs worse than Adam on problems with block heterogeneity. To validate (i) and (ii), we check various Transformers, CNNs, MLPs, and quadratic problems, and find that SGD can perform on par with Adam on problems without block heterogeneity, but performs worse than Adam when the heterogeneity exists. Our initial theoretical analysis indicates that SGD performs worse because it applies one single learning rate to all blocks, which cannot handle the heterogeneity among blocks. This limitation could be ameliorated if we use coordinate-wise learning rates, as designed in Adam.

arxiv情報

著者 Yushun Zhang,Congliang Chen,Tian Ding,Ziniu Li,Ruoyu Sun,Zhi-Quan Luo
発行日 2024-06-24 16:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク