Compressing the Backward Pass of Large-Scale Neural Architectures by Structured Activation Pruning

要約

ディープ ニューラル ネットワーク (DNN) の台頭により、モデルのサイズと複雑さが増大し、GPU のメモリ容量に負担がかかっています。
構造的または一時的なものとして特徴付けられる DNN のスパース性は、解決策として注目を集めています。
この研究は一時的なスパース性に焦点を当てており、トレーニング中のメモリ消費を削減することを目的としています。
ここでは、見落とされがちなコンポーネントであるアクティベーションの重要性と、メモリ使用におけるその役割を強調します。
この研究では、ブロック スパース圧縮行 (BSR) 形式の構造化プルーニングをマグニチュードベースの基準と組み合わせて採用し、アクティベーションを効率的にプルーニングします。
さらに、GPU 用の効率的なブロック スパース オペレーターを紹介し、その有効性と、ブロック スパース性によって提供される優れた圧縮を紹介します。
画像分類タスクにおける ResMLP の例で大規模ニューラル アーキテクチャのトレーニング速度、精度、メモリ使用量を評価することにより、アクティベーション プルーニングの有効性を報告します。
その結果、精度を維持しながら最大 32\% のメモリ削減が確認されました。
最終的に、私たちのアプローチは、大規模なモデルのトレーニングを民主化し、GPU 要件を削減し、環境上の懸念に対処することを目的としています。

要約(オリジナル)

The rise of Deep Neural Networks (DNNs) has led to an increase in model size and complexity, straining the memory capacity of GPUs. Sparsity in DNNs, characterized as structural or ephemeral, has gained attention as a solution. This work focuses on ephemeral sparsity, aiming to reduce memory consumption during training. It emphasizes the significance of activations, an often overlooked component, and their role in memory usage. This work employs structured pruning in Block Sparse Compressed Row (BSR) format in combination with a magnitude-based criterion to efficiently prune activations. We furthermore introduce efficient block-sparse operators for GPUs and showcase their effectiveness, as well as the superior compression offered by block sparsity. We report the effectiveness of activation pruning by evaluating training speed, accuracy, and memory usage of large-scale neural architectures on the example of ResMLP on image classification tasks. As a result, we observe a memory reduction of up to 32\% while maintaining accuracy. Ultimately, our approach aims to democratize large-scale model training, reduce GPU requirements, and address ecological concerns.

arxiv情報

著者 Daniel Barley,Holger Fröning
発行日 2023-11-28 15:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PF パーマリンク