Error Feedback Can Accurately Compress Preconditioners

要約

ディープ ネットワークの規模での損失に関する 2 次情報を活用することは、ディープ ラーニングの現在のオプティマイザーのパフォーマンスを向上させるための主なアプローチの 1 つです。
しかし、フルマトリックス Adagrad (GGT) やマトリックスフリー近似曲率 (M-FAC) などの正確なフルマトリックス プリコンディショニングのための既存のアプローチは、小規模モデルに適用した場合でも、膨大なストレージ コストが発生します。
勾配のスライディング ウィンドウ。メモリ要件はモデルの次元で倍増します。
この論文では、収束を損なうことなく、実際にプリコンディショナーを最大 2 桁圧縮するために適用できる、斬新で効率的なエラー フィードバック手法を通じてこの問題に取り組みます。
具体的には、私たちのアプローチでは、勾配情報がプリコンディショナーに供給される前に、スパース化または低ランク圧縮によって勾配情報を圧縮し、圧縮誤差を将来の反復にフィードバックします。
ディープ ニューラル ネットワークに関する実験では、このアプローチにより、精度を損なうことなくフル行列プリコンディショナーを最大 99% のスパース度まで圧縮でき、GGT や M-FAC などのフル行列プリコンディショナーのメモリ オーバーヘッドを効果的に除去できることが示されています。
コードは \url{https://github.com/IST-DASLab/EFCP} で入手できます。

要約(オリジナル)

Leveraging second-order information about the loss at the scale of deep networks is one of the main lines of approach for improving the performance of current optimizers for deep learning. Yet, existing approaches for accurate full-matrix preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free Approximate Curvature (M-FAC) suffer from massive storage costs when applied even to small-scale models, as they must store a sliding window of gradients, whose memory requirements are multiplicative in the model dimension. In this paper, we address this issue via a novel and efficient error-feedback technique that can be applied to compress preconditioners by up to two orders of magnitude in practice, without loss of convergence. Specifically, our approach compresses the gradient information via sparsification or low-rank compression \emph{before} it is fed into the preconditioner, feeding the compression error back into future iterations. Experiments on deep neural networks show that this approach can compress full-matrix preconditioners to up to 99\% sparsity without accuracy loss, effectively removing the memory overhead of full-matrix preconditioners such as GGT and M-FAC. Our code is available at \url{https://github.com/IST-DASLab/EFCP}.

arxiv情報

著者 Ionut-Vlad Modoranu,Aleksei Kalinov,Eldar Kurtic,Elias Frantar,Dan Alistarh
発行日 2024-06-05 15:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.OC パーマリンク