要約
低順位は従来の機械学習では重要な役割を果たしますが、深層学習ではあまり一般的ではありません。
以前のほとんどの低ランク ネットワーク圧縮方法は、事前トレーニングされたモデルを近似し、再トレーニングすることによってネットワークを圧縮します。
ただし、ユークリッド空間の最適解は、低ランク制約のあるものとはまったく異なる場合があります。
十分に事前トレーニングされたモデルは、低ランクの制約を持つモデルの初期化としては適切ではありません。
したがって、低ランクの圧縮ネットワークのパフォーマンスは大幅に低下します。
プルーニングなどの他のネットワーク圧縮方式と比較して、低ランク方式は近年あまり注目されていません。
この論文では、低ランクの圧縮ネットワークを最初からトレーニングして競争力のあるパフォーマンスを達成する、新しいトレーニング方法であるエネルギー転送による低ランク投影 (LRPET) を考案します。
確率的勾配降下トレーニングと各重み行列の対応する低ランク多様体への射影を交互に実行することを提案します。
コンパクト モデルでの再トレーニングと比較して、射影後に解空間がユークリッド空間に戻るため、モデルの能力を最大限に活用できます。
投影によって引き起こされる行列エネルギー (特異値の二乗和) の減少は、エネルギー伝達によって補償されます。
枝刈りされた特異値のエネルギーを残りの特異値に均一に転送します。
我々は、エネルギー伝達が投影によって引き起こされる勾配消失の傾向を緩和することを理論的に示します。
最新のネットワークでは、バッチ正規化 (BN) 層を推論のために前の畳み込み層にマージすることができ、それによって前の層の最適な低ランク近似に影響を与えることができます。
最適な低ランク近似への影響を遮断するために BN 整流を提案し、これにより性能がさらに向上します。
要約(オリジナル)
Low-rankness plays an important role in traditional machine learning, but is not so popular in deep learning. Most previous low-rank network compression methods compress networks by approximating pre-trained models and re-training. However, the optimal solution in the Euclidean space may be quite different from the one with low-rank constraint. A well-pre-trained model is not a good initialization for the model with low-rank constraints. Thus, the performance of a low-rank compressed network degrades significantly. Compared with other network compression methods such as pruning, low-rank methods attract less attention in recent years. In this paper, we devise a new training method, low-rank projection with energy transfer (LRPET), that trains low-rank compressed networks from scratch and achieves competitive performance. We propose to alternately perform stochastic gradient descent training and projection of each weight matrix onto the corresponding low-rank manifold. Compared to re-training on the compact model, this enables full utilization of model capacity since solution space is relaxed back to Euclidean space after projection. The matrix energy (the sum of squares of singular values) reduction caused by projection is compensated by energy transfer. We uniformly transfer the energy of the pruned singular values to the remaining ones. We theoretically show that energy transfer eases the trend of gradient vanishing caused by projection. In modern networks, a batch normalization (BN) layer can be merged into the previous convolution layer for inference, thereby influencing the optimal low-rank approximation of the previous layer. We propose BN rectification to cut off its effect on the optimal low-rank approximation, which further improves the performance.
arxiv情報
著者 | Kailing Guo,Zhenquan Lin,Canyang Chen,Xiaofen Xing,Fang Liu,Xiangmin Xu |
発行日 | 2024-08-14 15:31:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google