Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models

要約

Adam は、大規模な言語トランスフォーマーの最適化において勾配降下法を上回るパフォーマンスを経験的に示しており、他のタスクよりも大幅に優れていますが、なぜこれが起こるのかは不明です。
言語モデリング タスクで見られるヘビーテールのクラスの不均衡が、最適化ダイナミクスの困難につながることを示します。
勾配降下法を使用してトレーニングすると、頻度の低い単語に関連する損失は、頻度の高い単語に関連する損失よりも遅く減少します。
ほとんどのサンプルは比較的頻度の低い単語から取得されているため、平均損失は勾配降下法でゆっくりと減少します。
一方、Adam および符号ベースのメソッドはこの問題に悩まされず、すべてのクラスの予測が向上します。
この動作が実際にクラスの不均衡によって引き起こされることを確立するために、言語トランスフォーマー、ビジョン CNN、および線形モデル上のさまざまなアーキテクチャとデータ型を通じてこの動作が持続することを経験的に示します。
この現象をクロスエントロピー損失を伴う線形分類でさらに研究し、ヘビーテールクラスの不均衡が不調を引き起こすこと、そしてアダムが使用する正規化がそれを打ち消すことができることを示します。

要約(オリジナル)

Adam has been shown to outperform gradient descent in optimizing large language transformers empirically, and by a larger margin than on other tasks, but it is unclear why this happens. We show that the heavy-tailed class imbalance found in language modeling tasks leads to difficulties in the optimization dynamics. When training with gradient descent, the loss associated with infrequent words decreases slower than the loss associated with frequent ones. As most samples come from relatively infrequent words, the average loss decreases slowly with gradient descent. On the other hand, Adam and sign-based methods do not suffer from this problem and improve predictions on all classes. To establish that this behavior is indeed caused by class imbalance, we show empirically that it persist through different architectures and data types, on language transformers, vision CNNs, and linear models. We further study this phenomenon on a linear classification with cross-entropy loss, showing that heavy-tailed class imbalance leads to ill-conditioning, and that the normalization used by Adam can counteract it.

arxiv情報

著者 Frederik Kunstner,Robin Yadav,Alan Milligan,Mark Schmidt,Alberto Bietti
発行日 2024-02-29 18:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.OC, stat.ML パーマリンク