要約
構造化プルーニングは、一般的に使用される畳み込みニューラル ネットワーク (CNN) 圧縮アプローチです。
枝刈り率の設定は、構造化枝刈りにおける基本的な問題です。
既存の研究のほとんどは、CNN のさまざまな層に異なる枝刈り率を割り当てるには学習可能な追加パラメータが多すぎるか、圧縮率を明示的に制御できません。
ネットワークが狭すぎるとトレーニング用の情報フローがブロックされるため、自動プルーニング レート設定では特定のレイヤーに対して高いプルーニング レートを探索できません。
これらの制限を克服するために、Layer Adaptive Progressive Pruning (LAPP) という名前の新しいフレームワークを提案します。これは、最初からいくつかのエポックの初期トレーニング中にネットワークを徐々に圧縮します。
特に、LAPP は、各レイヤーの学習可能なしきい値とネットワークの FLOP 制約を導入する、効果的かつ効率的なプルーニング戦略を設計します。
タスク損失と FLOP 制約の両方に基づいて、学習可能なしきい値は動的かつ段階的に更新され、トレーニング中の重要度スコアの変化に対応します。
したがって、プルーニング戦略によりネットワークを段階的にプルーニングし、各レイヤーに適切なプルーニング レートを自動的に決定できます。
さらに、プルーニングされた層の表現力を維持するために、トレーニングを開始する前に、プルーニングされる各畳み込み層に追加の軽量バイパスを導入します。これにより追加される負担は比較的わずかです。
私たちの方法は、さまざまなデータセットやバックボーン アーキテクチャで以前の圧縮方法よりも優れたパフォーマンスの向上を示しています。
たとえば、CIFAR-10 では、私たちの方法は精度を低下させることなく ResNet-20 を 40.3% に圧縮します。
ResNet-18 の FLOP の 55.6% が削減され、ImageNet ではトップ 1 の精度が 0.21% 向上し、トップ 5 の精度が 0.40% 向上しました。
要約(オリジナル)
Structured pruning is a commonly used convolutional neural network (CNN) compression approach. Pruning rate setting is a fundamental problem in structured pruning. Most existing works introduce too many additional learnable parameters to assign different pruning rates across different layers in CNN or cannot control the compression rate explicitly. Since too narrow network blocks information flow for training, automatic pruning rate setting cannot explore a high pruning rate for a specific layer. To overcome these limitations, we propose a novel framework named Layer Adaptive Progressive Pruning (LAPP), which gradually compresses the network during initial training of a few epochs from scratch. In particular, LAPP designs an effective and efficient pruning strategy that introduces a learnable threshold for each layer and FLOPs constraints for network. Guided by both task loss and FLOPs constraints, the learnable thresholds are dynamically and gradually updated to accommodate changes of importance scores during training. Therefore the pruning strategy can gradually prune the network and automatically determine the appropriate pruning rates for each layer. What’s more, in order to maintain the expressive power of the pruned layer, before training starts, we introduce an additional lightweight bypass for each convolutional layer to be pruned, which only adds relatively few additional burdens. Our method demonstrates superior performance gains over previous compression methods on various datasets and backbone architectures. For example, on CIFAR-10, our method compresses ResNet-20 to 40.3% without accuracy drop. 55.6% of FLOPs of ResNet-18 are reduced with 0.21% top-1 accuracy increase and 0.40% top-5 accuracy increase on ImageNet.
arxiv情報
著者 | Pucheng Zhai,Kailing Guo,Fang Liu,Xiaofen Xing,Xiangmin Xu |
発行日 | 2023-09-25 14:08:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google