要約
Adamは、最新の機械学習モデルをトレーニングするためのオプティマイザーですが、勾配とその正方形の移動平均を維持するために追加のメモリが必要です。
アダムのパフォーマンスと時々一致することがあるさまざまな低メモリオプティマイザーが提案されていますが、信頼性の欠如はアダムをデフォルトの選択肢として残しました。
この作業では、単純な層ごとの信号対雑音比(SNR)分析を適用して、2番目のモーメントテンソルを異なる次元にわたって効果的にそれらの手段に置き換えることができる時期を定量化します。
SNR分析により、アーキテクチャ、トレーニングハイパーパラメーター、およびデータセットプロパティがAdamの軌跡に沿った圧縮性にどのように影響し、自然にメモリ効率の高いAdamバリアントである$ \ Textit {Slimadam} $につながる方法が明らかになります。
$ \ textit {slimadam} $は、実現可能な場合に高いSNRで次元に沿って2番目のモーメントを圧縮し、圧縮が有害である場合に去ります。
さまざまなアーキテクチャとトレーニングシナリオの実験を通じて、$ \ textit {slimadam} $は、アダムのパフォーマンスと安定性と一致しながら、合計2番目の瞬間の最大$ 98 \%$ $を節約することを示します。
$ \ textit {slimadam} $のコードは、https://github.com/dayal-kalra/low-memory-adamで入手できます。
要約(オリジナル)
Adam is the go-to optimizer for training modern machine learning models, but it requires additional memory to maintain the moving averages of the gradients and their squares. While various low-memory optimizers have been proposed that sometimes match the performance of Adam, their lack of reliability has left Adam as the default choice. In this work, we apply a simple layer-wise Signal-to-Noise Ratio (SNR) analysis to quantify when second-moment tensors can be effectively replaced by their means across different dimensions. Our SNR analysis reveals how architecture, training hyperparameters, and dataset properties impact compressibility along Adam’s trajectory, naturally leading to $\textit{SlimAdam}$, a memory-efficient Adam variant. $\textit{SlimAdam}$ compresses the second moments along dimensions with high SNR when feasible, and leaves when compression would be detrimental. Through experiments across a diverse set of architectures and training scenarios, we show that $\textit{SlimAdam}$ matches Adam’s performance and stability while saving up to $98\%$ of total second moments. Code for $\textit{SlimAdam}$ is available at https://github.com/dayal-kalra/low-memory-adam.
arxiv情報
著者 | Dayal Singh Kalra,John Kirchenbauer,Maissam Barkeshli,Tom Goldstein |
発行日 | 2025-03-06 18:38:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google