要約
低メモリの要件と速い収束を備えた大規模な言語モデル(LLMS)の効率的なオプティマザーを設計することは、重要で挑戦的な問題です。
この論文は、構造化されたフィッシャー情報マトリックス(FIM)近似のレンズを介したこのようなオプティマイザーの体系的な設計に向けた一歩を踏み出します。
多くの最先端の効率的なオプティマイザーは、特定の構造的仮定を備えたFIM近似(Frobenius Normの下)のソリューションと見なすことができることを示しています。
これらの洞察に基づいて、LLMSの実用的な効率的なオプティマザーに関する2つの設計上の推奨事項を提案し、一般性と効率のバランスをとる構造の仮定の慎重な選択、および新しい低ランク拡張フレームワークを通じて一般的な構造とのオプティマイザーのメモリ効率の向上を提案します。
新しいメモリ効率の高いオプティマーを導き出すことにより、各設計アプローチを使用する方法を示します:行と列のスケーリングされたSGD(RAC)および適応性低次元サブスペース推定(Alice)。
Llama Pre-Training(最大1Bパラメーター)の実験は、有効性を検証し、既存のメモリ効率の高いベースラインやメモリオーバーヘッドがほとんどないAdamよりも速くより良い収束を示します。
特に、AliceはAdamよりも2倍の高速収束を超えるよりも優れていますが、RACSはSGDのようなメモリを備えた1Bモデルで強力なパフォーマンスを提供します。
要約(オリジナル)
Designing efficient optimizers for large language models (LLMs) with low-memory requirements and fast convergence is an important and challenging problem. This paper makes a step towards the systematic design of such optimizers through the lens of structured Fisher information matrix (FIM) approximation. We show that many state-of-the-art efficient optimizers can be viewed as solutions to FIM approximation (under the Frobenius norm) with specific structural assumptions. Building on these insights, we propose two design recommendations of practical efficient optimizers for LLMs, involving the careful selection of structural assumptions to balance generality and efficiency, and enhancing memory efficiency of optimizers with general structures through a novel low-rank extension framework. We demonstrate how to use each design approach by deriving new memory-efficient optimizers: Row and Column Scaled SGD (RACS) and Adaptive low-dimensional subspace estimation (Alice). Experiments on LLaMA pre-training (up to 1B parameters) validate the effectiveness, showing faster and better convergence than existing memory-efficient baselines and Adam with little memory overhead. Notably, Alice achieves better than 2x faster convergence over Adam, while RACS delivers strong performance on the 1B model with SGD-like memory.
arxiv情報
著者 | Wenbo Gong,Meyer Scetbon,Chao Ma,Edward Meeds |
発行日 | 2025-02-20 18:48:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google