Frequency Regularization: Restricting Information Redundancy of Convolutional Neural Networks

要約

【タイトル】畳み込みニューラルネットワークの情報冗長性を制限する周波数正則化

【要約】
– 畳み込みニューラルネットワークは、多くのコンピュータービジョンタスクで優れた結果を出している。
– しかし、これらのネットワークのサイズが大きくなるにつれ、ネットワークパラメーターの数が多すぎるために生じる情報過多の懸念が増大している。
– 本論文では、周波数正則化を提案し、ネットワークパラメーターの非ゼロ要素を周波数領域で制限する。
– 提案手法はテンソルレベルで動作し、ほとんどすべてのネットワークアーキテクチャに適用できる。
– 具体的には、パラメータのテンソルは周波数領域で維持され、高周波成分はジグザグ設定によってテンソル要素をゼロにすることによって除去される。
– 次に、逆離散コサイン変換(IDCT)が使用されて、ネットワークトレーニング中の行列操作のための空間テンソルが再構築される。
– 画像の高周波成分は重要でないことが知られているため、提案された周波数正則化でネットワークをトレーニングすると、これらのパラメータの大部分をゼロにすることができる。
– LeNet、Alexnet、VGG、Resnet、ViT、UNet、GAN、VAEなど、様々な最新のネットワークアーキテクチャの包括的な評価は、提案された周波数正則化の効果を示している。
– 微小な精度低下(2%未満)の条件下で、パラメータ数が0.4MのLeNet5は、776のfloat16数値(1100倍以上)で表現でき、パラメータ数が34MのUNetは、759のfloat16数値(80000倍以上)で表現できる。

要約(オリジナル)

Convolutional neural networks have demonstrated impressive results in many computer vision tasks. However, the increasing size of these networks raises concerns about the information overload resulting from the large number of network parameters. In this paper, we propose Frequency Regularization to restrict the non-zero elements of the network parameters in frequency domain. The proposed approach operates at the tensor level, and can be applied to almost all network architectures. Specifically, the tensors of parameters are maintained in the frequency domain, where high frequency components can be eliminated by zigzag setting tensor elements to zero. Then, the inverse discrete cosine transform (IDCT) is used to reconstruct the spatial tensors for matrix operations during network training. Since high frequency components of images are known to be less critical, a large proportion of these parameters can be set to zero when networks are trained with the proposed frequency regularization. Comprehensive evaluations on various state-of-the-art network architectures, including LeNet, Alexnet, VGG, Resnet, ViT, UNet, GAN, and VAE, demonstrate the effectiveness of the proposed frequency regularization. Under the condition of a very small accuracy decrease (less than 2\%), a LeNet5 with 0.4M parameters can be represented by only 776 float16 numbers(over 1100$\times$), and a UNet with 34M parameters can be represented by only 759 float16 numbers (over 80000$\times$).

arxiv情報

著者 Chenqiu Zhao,Guanfang Dong,Shupei Zhang,Zijie Tan,Anup Basu
発行日 2023-04-20 02:24:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク