要約
線形勾配変換を伴うニューラルネットワークのメモリ効率の最適化を研究します。ここでは、勾配が完全なパラメーター空間よりも低次元空間に線形にマッピングされるため、勾配の蓄積とオプティマイザー状態の持続に必要なメモリを保存します。
モデルパラメーターは、最初に低次元空間で最適化ステップを実行し、次に線形マップの転置を介して元のパラメーター空間に戻ることにより更新されます。
この変換された空間でモデルを最適化することは、モデルパラメーターを追加する線形アダプターを介して元のモデルを再分析することと同等であり、アダプターのパラメーターのみを最適化するものであることを示します。
変換がKronecker-Factoredの場合、これにより、銀河と片側のロラの間の同等性が確立されます。
勾配変換とアダプターベースのリダメータ化の間のこの二重性は、メモリ効率の高いトレーニングに対する既存のアプローチを統合し、トレーニングの効率とメモリの使用を改善するための新しい技術を示唆していることを示します。
要約(オリジナル)
We study memory-efficient optimization of neural networks with linear gradient transformations, where the gradients are linearly mapped to a lower dimensional space than the full parameter space, thus saving memory required for gradient accumulation and optimizer state persistence. The model parameters are updated by first performing an optimization step in the lower dimensional space and then going back into the original parameter space via the linear map’s transpose. We show that optimizing the model in this transformed space is equivalent to reparameterizing the original model through a linear adapter that additively modifies the model parameters, and then only optimizing the adapter’s parameters. When the transformation is Kronecker-factored, this establishes an equivalence between GaLore and one-sided LoRA. We show that this duality between gradient transformations and adapter-based reparameterizations unifies existing approaches to memory-efficient training and suggests new techniques for improving training efficiency and memory use.
arxiv情報
著者 | Lucas Torroba-Hennigen,Hunter Lang,Han Guo,Yoon Kim |
発行日 | 2025-02-19 15:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google