要約
畳み込みニューラル ネットワーク (CNN) は、最も広く使用されているニューラル ネットワーク アーキテクチャの 1 つであり、コンピューター ビジョン タスクで最先端のパフォーマンスを発揮します。
一般に、より大きな CNN はより高い精度を示しますが、そのサイズは、精度を維持しながら「テンソル化」によって効果的に縮小できます。つまり、畳み込みカーネルをタッカー、正準ポリアディック分解などのコンパクトな分解、または行列積などの量子にインスピレーションを得た分解に置き換えることです。
状態を学習し、分解内の因子を直接トレーニングして、学習を低ランクの分解に偏らせます。
しかし、テンソル化が精度に悪影響を与えないように見えるのはなぜでしょうか?
\textit{dense} (テンソル化されていない) CNN の畳み込みカーネルの \textit{truncating} が精度にどのように影響するかを評価することで、これを調査します。
具体的には、(i) バニラの 4 層 CNN と、(ii) CIFAR-10 および CIFAR-100 データセットで画像分類用に事前トレーニングされた ResNet-50 のカーネルを切り詰めました。
カーネル (特により深い層内のカーネル) は、多くの場合、いくつかのカットに沿って切り詰められる可能性があり、その結果、カーネル ノルムが大幅に低下しますが、分類精度は低下しないことがわかりました。
これは、そのような「相関圧縮」(基礎となるテンソル化) が、高密度 CNN で情報がエンコードされる方法の本質的な特徴であることを示唆しています。
また、積極的に切り捨てられたモデルは、わずか数エポックの再トレーニング後にしばしば切り捨て前の精度を回復できることもわかりました。これは、畳み込み層の内部相関を圧縮しても、モデルがさらに悪い最小値に達することはあまりないことを示唆しています。
私たちの結果は、CNN モデルをより効果的にテンソル化および圧縮するために適用できます。
要約(オリジナル)
Convolutional neural networks (CNNs) are one of the most widely used neural network architectures, showcasing state-of-the-art performance in computer vision tasks. Although larger CNNs generally exhibit higher accuracy, their size can be effectively reduced by “tensorization” while maintaining accuracy, namely, replacing the convolution kernels with compact decompositions such as Tucker, Canonical Polyadic decompositions, or quantum-inspired decompositions such as matrix product states, and directly training the factors in the decompositions to bias the learning towards low-rank decompositions. But why doesn’t tensorization seem to impact the accuracy adversely? We explore this by assessing how \textit{truncating} the convolution kernels of \textit{dense} (untensorized) CNNs impact their accuracy. Specifically, we truncated the kernels of (i) a vanilla four-layer CNN and (ii) ResNet-50 pre-trained for image classification on CIFAR-10 and CIFAR-100 datasets. We found that kernels (especially those inside deeper layers) could often be truncated along several cuts resulting in significant loss in kernel norm but not in classification accuracy. This suggests that such “correlation compression” (underlying tensorization) is an intrinsic feature of how information is encoded in dense CNNs. We also found that aggressively truncated models could often recover the pre-truncation accuracy after only a few epochs of re-training, suggesting that compressing the internal correlations of convolution layers does not often transport the model to a worse minimum. Our results can be applied to tensorize and compress CNN models more effectively.
arxiv情報
| 著者 | Sukhbinder Singh,Saeed S. Jahromi,Roman Orus | 
| 発行日 | 2024-08-19 16:37:36+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
