AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks

要約

タイトル:AUTOSPARSE:自動的なスパーストレーニングのための取り組み

要約:

– スパースなトレーニングは、ニューラルネットワークのトレーニングの計算コストを下げる有望な方法として現れている。
– いくつかの最近の研究では、学習可能な閾値を使用した剪定法が提案され、スパース性の非均一分布を効率的に探索している。
– この論文では、マスクされた重みの勾配を非線形に縮小するGradient Annealing(GA)を提案する。GAは、追加のスパース性誘導正則化を必要とせず、スパース性と精度の間の優れたトレードオフを提供する。
– 最新の学習可能な剪定法とGAを統合して、自動的なスパーストレーニングアルゴリズムAutoSparseを作成した。AutoSparseは、ImageNet-1KのResNet50とMobileNetV1に対して、既存の学習可能な剪定法よりも精度と/またはトレーニング/推論FLOPSの削減を達成している。
– 最後に、AutoSparseは80%のスパース性を持つResNet50の場合、均一なスパース性を持つSotA方法MESTよりも良い精度を実現し、MESTはトレーニングFLOPSが12%、推論FLOPSが50%多く必要としている。

要約(オリジナル)

Sparse training is emerging as a promising avenue for reducing the computational cost of training neural networks. Several recent studies have proposed pruning methods using learnable thresholds to efficiently explore the non-uniform distribution of sparsity inherent within the models. In this paper, we propose Gradient Annealing (GA), where gradients of masked weights are scaled down in a non-linear manner. GA provides an elegant trade-off between sparsity and accuracy without the need for additional sparsity-inducing regularization. We integrated GA with the latest learnable pruning methods to create an automated sparse training algorithm called AutoSparse, which achieves better accuracy and/or training/inference FLOPS reduction than existing learnable pruning methods for sparse ResNet50 and MobileNetV1 on ImageNet-1K: AutoSparse achieves (2x, 7x) reduction in (training,inference) FLOPS for ResNet50 on ImageNet at 80% sparsity. Finally, AutoSparse outperforms sparse-to-sparse SotA method MEST (uniform sparsity) for 80% sparse ResNet50 with similar accuracy, where MEST uses 12% more training FLOPS and 50% more inference FLOPS.

arxiv情報

著者 Abhisek Kundu,Naveen K. Mellempudi,Dharma Teja Vooturi,Bharat Kaul,Pradeep Dubey
発行日 2023-04-14 06:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク