要約
ニューラルネットワークの過剰なパラメータ化により、プルーニングや量子化に基づく多くのモデル圧縮手法が出現している。これらの手法は、モデルのサイズ、パラメータ数、計算の複雑さを軽減することに優れています。しかし、これらの手法で圧縮されたモデルの多くは、特別なハードウェアやソフトウェアのサポートが必要であり、導入コストが高くなる。また、これらの手法は主に分類タスクで使用され、検出タスクで直接使用されることはほとんどない。これらの問題に対処するため、物体検出ネットワークに対して、動的スパース訓練、グループチャンネルの刈り込み、空間的注意の蒸留という3段階のモデル圧縮法を導入します。まず、ネットワーク内の重要でないチャンネルを選択し、スパース性と精度のバランスを保つために、可変スパース率を導入する動的スパース訓練法を提唱し、スパース率はネットワークの訓練プロセスによって変化します。次に、ネットワークの精度に対する刈り込みの影響を軽減するために、グループチャネルプランニングと呼ばれる新しい刈り込み方法を提案します。具体的には、特徴層のスケールやネットワーク内のモジュール構造の類似性に応じてネットワークを複数のグループに分け、異なる刈り込み閾値を用いて各グループのチャネルを刈り込みます。最後に、刈り込まれたネットワークの精度を回復するために、刈り込まれたネットワークに対して改良された知識蒸留法を用いている。特に、各グループの特定スケールの特徴マップから空間的な注目情報を抽出し、蒸留のための知識としている。実験では、物体検出ネットワークとしてYOLOv4、学習データセットとしてPASCAL VOCを使用した。本手法では,モデルのパラメータを64.7 %,計算量を34.9 %削減することができた.
要約(オリジナル)
Due to the over-parameterization of neural networks, many model compression methods based on pruning and quantization have emerged. They are remarkable in reducing the size, parameter number, and computational complexity of the model. However, most of the models compressed by such methods need the support of special hardware and software, which increases the deployment cost. Moreover, these methods are mainly used in classification tasks, and rarely directly used in detection tasks. To address these issues, for the object detection network we introduce a three-stage model compression method: dynamic sparse training, group channel pruning, and spatial attention distilling. Firstly, to select out the unimportant channels in the network and maintain a good balance between sparsity and accuracy, we put forward a dynamic sparse training method, which introduces a variable sparse rate, and the sparse rate will change with the training process of the network. Secondly, to reduce the effect of pruning on network accuracy, we propose a novel pruning method called group channel pruning. In particular, we divide the network into multiple groups according to the scales of the feature layer and the similarity of module structure in the network, and then we use different pruning thresholds to prune the channels in each group. Finally, to recover the accuracy of the pruned network, we use an improved knowledge distillation method for the pruned network. Especially, we extract spatial attention information from the feature maps of specific scales in each group as knowledge for distillation. In the experiments, we use YOLOv4 as the object detection network and PASCAL VOC as the training dataset. Our method reduces the parameters of the model by 64.7 % and the calculation by 34.9%.
arxiv情報
著者 | Yun Chu,Pu Li,Yong Bai,Zhuhua Hu,Yongqing Chen,Jiafeng Lu |
発行日 | 2023-06-02 13:26:23+00:00 |
arxivサイト | arxiv_id(pdf) |