LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics

要約

大規模モデルをトレーニングするためのメモリ効率の高いオプティマイザーである LDAdam を紹介します。これは、トレーニング中に完全なパラメーター空間を一貫して探索しながら、低次元の部分空間内で適応最適化ステップを実行します。
この戦略により、オプティマイザーのメモリ フットプリントがモデル サイズの一部に抑えられます。
LDAdam は、部分空間間の遷移、つまり投影された勾配の統計の推定を可能にするオプティマイザー状態の新しい投影認識更新ルールに依存しています。
低ランクの射影によるエラーを軽減するために、LDAdam には、勾配とオプティマイザーの状態圧縮の両方を明示的に考慮する、新しい一般化されたエラー フィードバック メカニズムが統合されています。
標準的な仮定の下で LDAdam の収束を証明し、LDAdam が言語モデルの正確かつ効率的な微調整と事前トレーニングを可能にすることを示します。

要約(オリジナル)

We introduce LDAdam, a memory-efficient optimizer for training large models, that performs adaptive optimization steps within lower dimensional subspaces, while consistently exploring the full parameter space during training. This strategy keeps the optimizer’s memory footprint to a fraction of the model size. LDAdam relies on a new projection-aware update rule for the optimizer states that allows for transitioning between subspaces, i.e., estimation of the statistics of the projected gradients. To mitigate the errors due to low-rank projection, LDAdam integrates a new generalized error feedback mechanism, which explicitly accounts for both gradient and optimizer state compression. We prove the convergence of LDAdam under standard assumptions, and show that LDAdam allows for accurate and efficient fine-tuning and pre-training of language models.

arxiv情報

著者 Thomas Robert,Mher Safaryan,Ionut-Vlad Modoranu,Dan Alistarh
発行日 2024-10-21 15:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク