CAME: Confidence-guided Adaptive Memory Efficient Optimization

要約

Adam や LAMB などの適応勾配法は、大規模な言語モデルのトレーニングにおいて優れたパフォーマンスを示しています。
それにも関わらず、適応性の必要性には、パラメーターごとの勾配の 2 番目の瞬間の推定値を維持する必要があり、追加のメモリ オーバーヘッドという高いコストがかかります。
この問題を解決するために、補助メモリの使用量を大幅に削減するために、いくつかのメモリ効率の高いオプティマイザ (Adafactor など) が提案されていますが、パフォーマンスは低下します。
このペーパーでは、まず、既存のメモリ効率の高いオプティマイザの不安定性を軽減するための信頼度に基づく戦略を研究します。
この戦略に基づいて、従来の適応手法のような高速収束と、メモリ効率の高い手法のような低メモリ使用量という 2 つの目標を同時に達成する CAME を提案します。
広範な実験により、BERT や GPT-2 トレーニングなどのさまざまな NLP タスクにわたる CAME のトレーニングの安定性と優れたパフォーマンスが実証されています。
特に、32,768 という大きなバッチ サイズでの BERT 事前トレーニングの場合、私たちが提案するオプティマイザーは、Adam オプティマイザーと比較してより高速な収束とより高い精度を達成します。
CAME の実装は公開されています。

要約(オリジナル)

Adaptive gradient methods, such as Adam and LAMB, have demonstrated excellent performance in the training of large language models. Nevertheless, the need for adaptivity requires maintaining second-moment estimates of the per-parameter gradients, which entails a high cost of extra memory overheads. To solve this problem, several memory-efficient optimizers (e.g., Adafactor) have been proposed to obtain a drastic reduction in auxiliary memory usage, but with a performance penalty. In this paper, we first study a confidence-guided strategy to reduce the instability of existing memory efficient optimizers. Based on this strategy, we propose CAME to simultaneously achieve two goals: fast convergence as in traditional adaptive methods, and low memory usage as in memory-efficient methods. Extensive experiments demonstrate the training stability and superior performance of CAME across various NLP tasks such as BERT and GPT-2 training. Notably, for BERT pre-training on the large batch size of 32,768, our proposed optimizer attains faster convergence and higher accuracy compared with the Adam optimizer. The implementation of CAME is publicly available.

arxiv情報

著者 Yang Luo,Xiaozhe Ren,Zangwei Zheng,Zhuo Jiang,Xin Jiang,Yang You
発行日 2023-07-05 06:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク