要約
低ランク性は従来の機械学習では重要な役割を果たしますが、深層学習ではあまり一般的ではありません。
以前のほとんどの低ランク ネットワーク圧縮方法は、事前トレーニング済みのモデルを近似し、再トレーニングすることによってネットワークを圧縮します。
ただし、ユークリッド空間での最適解は、低ランク多様体での最適解とはまったく異なる場合があります。
十分に事前トレーニングされたモデルは、低ランクの制約を持つモデルの適切な初期化ではありません。
したがって、低ランクの圧縮ネットワークのパフォーマンスは大幅に低下します。
枝刈りなどの他のネットワーク圧縮手法に比べて、低ランク手法は近年あまり注目されていません。
この論文では、低ランクの圧縮されたネットワークをゼロからトレーニングし、競争力のあるパフォーマンスを達成する、新しいトレーニング方法であるエネルギー伝達を伴う低ランク射影 (LRPET) を考案します。
まず、確率的勾配降下トレーニングと低ランク多様体への射影を交互に実行することを提案します。
コンパクト モデルでの再トレーニングと比較すると、投影後に解空間が緩和されてユークリッド空間に戻るため、モデルの容量を最大限に活用できます。
第 2 に、射影によるマトリックス エネルギー (特異値の二乗和) の減少は、エネルギー移動によって補償されます。
枝刈りされた特異値のエネルギーを残りの特異値に一様に転送します。
理論的には、エネルギー移動が射影によって引き起こされる勾配消失の傾向を緩和することを示しています。
3 番目に、バッチ正規化 (BN) 整流を提案して、重み行列の最適な低ランク近似に対する影響を遮断します。これにより、パフォーマンスがさらに向上します。
CIFAR-10 と ImageNet での包括的な実験により、私たちの方法が他の低ランク圧縮方法よりも優れており、最近の最先端の枝刈り方法よりも優れていることが正当化されました。
コードは https://github.com/BZQLin/LRPET で入手できます。
要約(オリジナル)
Low-rankness plays an important role in traditional machine learning, but is not so popular in deep learning. Most previous low-rank network compression methods compress the networks by approximating pre-trained models and re-training. However, the optimal solution in the Euclidean space may be quite different from the one in the low-rank manifold. A well-pre-trained model is not a good initialization for the model with low-rank constraints. Thus, the performance of a low-rank compressed network degrades significantly. Compared to other network compression methods such as pruning, low-rank methods attracts less attention in recent years. In this paper, we devise a new training method, low-rank projection with energy transfer (LRPET), that trains low-rank compressed networks from scratch and achieves competitive performance. First, we propose to alternately perform stochastic gradient descent training and projection onto the low-rank manifold. Compared to re-training on the compact model, this enables full utilization of model capacity since solution space is relaxed back to Euclidean space after projection. Second, the matrix energy (the sum of squares of singular values) reduction caused by projection is compensated by energy transfer. We uniformly transfer the energy of the pruned singular values to the remaining ones. We theoretically show that energy transfer eases the trend of gradient vanishing caused by projection. Third, we propose batch normalization (BN) rectification to cut off its effect on the optimal low-rank approximation of the weight matrix, which further improves the performance. Comprehensive experiments on CIFAR-10 and ImageNet have justified that our method is superior to other low-rank compression methods and also outperforms recent state-of-the-art pruning methods. Our code is available at https://github.com/BZQLin/LRPET.
arxiv情報
著者 | Kailing Guo,Zhenquan Lin,Xiaofen Xing,Fang Liu,Xiangmin Xu |
発行日 | 2022-11-28 13:57:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google