要約
大規模言語モデル (LLM) は顕著なパフォーマンスを示しており、その事前トレーニング プロセスを改善することが、その機能をさらに強化する鍵となるようです。
文書化された Adam の成功、学習率の低下、および重量の低下に基づいて、トレーニング前の損失状況は狭くなる谷の構造を特徴としていると仮説を立てます。
合成損失関数を使った実験を通じて、谷の鋭さに比べて勾配クエリ ノイズが高い場合、Adam が有効ステップ サイズを大幅に削減しすぎるため、Adam のパフォーマンスが Signum のパフォーマンスに劣ることがわかりました。
この観察により、移動平均パラメータへの魅力を組み込むことで Signum を強化するオプティマイザーである FOCUS を開発することができ、より大きなステップ サイズを維持しながらノイズをより適切に処理できるようになりました。
GPT-2 のトレーニングでは、FOCUS は Signum よりも安定しており、Adam よりも高速であることが証明されました。
これらの結果は、勾配ノイズが LLM トレーニングにおける過小評価されている制限要因である可能性があることを示唆しており、FOCUS は有望なソリューションを提供します。
要約(オリジナル)
Large language models (LLMs) demonstrate remarkable performance, and improving their pre-training process appears to be key to enhancing their capabilities further. Based on the documented success of Adam, learning rate decay, and weight decay, we hypothesize that the pre-training loss landscape features a narrowing valley structure. Through experiments with synthetic loss functions, we discover that when gradient query noise is high relative to the valley’s sharpness, Adam’s performance falls behind that of Signum because Adam reduces the effective step size too drastically. This observation led us to develop FOCUS, an optimizer that enhances Signum by incorporating attraction toward moving averaged parameters, allowing it to handle noise better while maintaining larger step sizes. In training GPT-2, FOCUS proves to be more stable than Signum and faster than Adam. These results suggest that gradient noise may be an underappreciated limiting factor in LLM training, and FOCUS offers promising solutions.
arxiv情報
著者 | Yizhou Liu,Ziming Liu,Jeff Gore |
発行日 | 2025-01-21 16:03:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google