Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models


Adam は、大規模な言語トランスフォーマーの最適化において勾配降下法を上回るパフォーマンスを経験的に示しており、他のタスクよりも大幅に優れていますが、なぜこれが起こるのかは不明です。
言語モデリング タスクで見られるヘビーテールのクラスの不均衡が、最適化ダイナミクスの困難につながることを示します。
一方、Adam および符号ベースのメソッドはこの問題に悩まされず、すべてのクラスの予測が向上します。
この動作が実際にクラスの不均衡によって引き起こされることを確立するために、言語トランスフォーマー、ビジョン CNN、および線形モデル上のさまざまなアーキテクチャとデータ型を通じてこの動作が持続することを経験的に示します。


Adam has been shown to outperform gradient descent in optimizing large language transformers empirically, and by a larger margin than on other tasks, but it is unclear why this happens. We show that the heavy-tailed class imbalance found in language modeling tasks leads to difficulties in the optimization dynamics. When training with gradient descent, the loss associated with infrequent words decreases slower than the loss associated with frequent ones. As most samples come from relatively infrequent words, the average loss decreases slowly with gradient descent. On the other hand, Adam and sign-based methods do not suffer from this problem and improve predictions on all classes. To establish that this behavior is indeed caused by class imbalance, we show empirically that it persist through different architectures and data types, on language transformers, vision CNNs, and linear models. We further study this phenomenon on a linear classification with cross-entropy loss, showing that heavy-tailed class imbalance leads to ill-conditioning, and that the normalization used by Adam can counteract it.


著者 Frederik Kunstner,Robin Yadav,Alan Milligan,Mark Schmidt,Alberto Bietti
発行日 2024-02-29 18:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.OC, stat.ML パーマリンク