L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and Accurate Deep Learning

要約

ディープ ニューラル ネットワーク (DNN) のデータ並列分散トレーニングは非常に広く採用されていますが、依然として通信のボトルネックが発生する可能性があります。
この問題に対処するために、量子化、スパース化、低ランク近似を含む圧縮メカニズムのファミリー全体が開発されており、そのうちのいくつかは大幅に実用化されています。
この進歩にもかかわらず、ほとんどすべての既知の圧縮スキームは DNN レイヤー全体に均一に圧縮を適用しますが、パラメーター数とモデルの精度への影響の点ではレイヤーは異質です。
この作業では、トレーニング中にモデルのレイヤー全体の圧縮度を動的に適応させ、全体の圧縮を向上させると同時に、精度を犠牲にすることなく大幅な高速化を実現するための一般的なフレームワークを提供します。
L-GreCo と呼ばれる私たちのフレームワークは、モデル層に最適な圧縮パラメータを自動的に選択する適応アルゴリズムに基づいており、誤差制約を満たしながら最高の圧縮率を保証します。
画像分類タスクと言語モデリング タスクに関する広範な実験により、L-GreCo が既存のすべての圧縮方法ファミリーにわたって効果的であり、既存の圧縮方法の効率的な実装と比較して最大 2.5$\times$ のトレーニング速度向上と最大 5$\times$ の圧縮向上を達成することが示されています。
完全な精度を回復しながらアプローチします。
さらに、L-GreCo は既存の適応アルゴリズムを補完し、圧縮率を 50%、実際のスループットを 66% 向上させます。

要約(オリジナル)

Data-parallel distributed training of deep neural networks (DNN) has gained very widespread adoption, but can still experience communication bottlenecks. To address this issue, entire families of compression mechanisms have been developed, including quantization, sparsification, and low-rank approximation, some of which are seeing significant practical adoption. Despite this progress, almost all known compression schemes apply compression uniformly across DNN layers, although layers are heterogeneous in terms of parameter count and their impact on model accuracy. In this work, we provide a general framework for adapting the degree of compression across the model’s layers dynamically during training, improving the overall compression, while leading to substantial speedups, without sacrificing accuracy. Our framework, called L-GreCo, is based on an adaptive algorithm, which automatically picks the optimal compression parameters for model layers guaranteeing the best compression ratio while satisfying an error constraint. Extensive experiments over image classification and language modeling tasks shows that L-GreCo is effective across all existing families of compression methods, and achieves up to 2.5$\times$ training speedup and up to 5$\times$ compression improvement over efficient implementations of existing approaches, while recovering full accuracy. Moreover, L-GreCo is complementary to existing adaptive algorithms, improving their compression ratio by 50% and practical throughput by 66%.

arxiv情報

著者 Mohammadreza Alimohammadi,Ilia Markov,Elias Frantar,Dan Alistarh
発行日 2023-06-09 17:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク