Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural Network Pruning

要約

タイトル:代理ラグランジュ緩和:再学習不要のディープニューラルネットワークの剪定への道

要約:

– ネットワークの剪定は、ディープニューラルネットワークの計算コストやモデルサイズを削減するための広く用いられる技術である。
– しかしながら、従来の3段階のパイプラインは全体のトレーニング時間を著しく増加させてしまう。
– 本論文では、代理ラグランジュ緩和に基づく系統的なウェイト剪定最適化手法を開発し、ウェイト剪定問題の離散性に起因する困難を克服するために独自に設計された。
– 本手法はモデル圧縮問題の収束を迅速に確保することを証明し、二次ペナルティを使用することでSLRの収束を加速することができることを示した。
– 本研究は、CIFAR-10とImageNetの画像分類タスクで、最先端のMLP-Mixer、Swin Transformer、VGG-16、ResNet-18、ResNet-50、ResNet-110、MobileNetV2を使用して、手法を評価した。
– また、COCO、KITTIベンチマーク、TuSimpleレーン検出データセットを用いて、さまざまなモデルで物体検出およびセグメンテーションタスクを評価した。
– 実験結果は、従来の最先端の手法よりも高い圧縮率を実現しながら同じ精度要件を満たすことができ、同じ圧縮率要件の下でもより高い精度を実現することができることを示している。
– 分類タスクでは、本手法は両方のデータセットで望ましい精度に$3\times$早く収束することができる。
– 物体検出・セグメンテーションタスクでは、SLRは望ましい精度に$2\times$早く収束することができる。
– さらに、本手法は再学習することなく、モデルの精度を高く維持し、従来の3段階の剪定を2段階のプロセスに削減することができる。限られた再学習エポックの予算がある場合、本手法はモデルの精度を素早く回復することができる。

要約(オリジナル)

Network pruning is a widely used technique to reduce computation cost and model size for deep neural networks. However, the typical three-stage pipeline significantly increases the overall training time. In this paper, we develop a systematic weight-pruning optimization approach based on Surrogate Lagrangian relaxation, which is tailored to overcome difficulties caused by the discrete nature of the weight-pruning problem. We prove that our method ensures fast convergence of the model compression problem, and the convergence of the SLR is accelerated by using quadratic penalties. Model parameters obtained by SLR during the training phase are much closer to their optimal values as compared to those obtained by other state-of-the-art methods. We evaluate our method on image classification tasks using CIFAR-10 and ImageNet with state-of-the-art MLP-Mixer, Swin Transformer, and VGG-16, ResNet-18, ResNet-50 and ResNet-110, MobileNetV2. We also evaluate object detection and segmentation tasks on COCO, KITTI benchmark, and TuSimple lane detection dataset using a variety of models. Experimental results demonstrate that our SLR-based weight-pruning optimization approach achieves a higher compression rate than state-of-the-art methods under the same accuracy requirement and also can achieve higher accuracy under the same compression rate requirement. Under classification tasks, our SLR approach converges to the desired accuracy $3\times$ faster on both of the datasets. Under object detection and segmentation tasks, SLR also converges $2\times$ faster to the desired accuracy. Further, our SLR achieves high model accuracy even at the hard-pruning stage without retraining, which reduces the traditional three-stage pruning into a two-stage process. Given a limited budget of retraining epochs, our approach quickly recovers the model’s accuracy.

arxiv情報

著者 Shanglin Zhou,Mikhail A. Bragin,Lynn Pepin,Deniz Gurevin,Fei Miao,Caiwen Ding
発行日 2023-04-08 22:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.NE, I.2 パーマリンク