Multi-Channel Orthogonal Transform-Based Perceptron Layers for Efficient ResNets

要約

この論文では、畳み込みニューラル ネットワーク (CNN) の $3\times3$ Conv2D 層の代替として、変換ベースのニューラル ネットワーク層のセットを提案します。
提案された層は、離散コサイン変換 (DCT)、アダマール変換 (HT)、双直交ブロック ウェーブレット変換 (BWT) などの直交変換に基づいて実装できます。
さらに、畳み込み定理を利用することにより、要素ごとの乗算を使用して変換領域で畳み込みフィルタリング操作が実行されます。
変換ドメイン内のノイズを除去するトレーニング可能な軟しきい値レイヤーは、変換ドメイン レイヤーに非線形性をもたらします。
空間に依存せずチャネルに固有の Conv2D 層と比較して、提案された層は場所に依存し、チャネルに固有です。
さらに、これらの提案された層は、ImageNet-1K 分類タスクにおける通常の ResNet の結果の精度を向上させながら、パラメーターと乗算の数を大幅に削減します。
さらに、分類精度を向上させるための追加層として、従来の ResNets のグローバル平均プーリング層の前にバッチ正規化層を挿入できます。

要約(オリジナル)

In this paper, we propose a set of transform-based neural network layers as an alternative to the $3\times3$ Conv2D layers in Convolutional Neural Networks (CNNs). The proposed layers can be implemented based on orthogonal transforms such as the Discrete Cosine Transform (DCT), Hadamard transform (HT), and biorthogonal Block Wavelet Transform (BWT). Furthermore, by taking advantage of the convolution theorems, convolutional filtering operations are performed in the transform domain using element-wise multiplications. Trainable soft-thresholding layers, that remove noise in the transform domain, bring nonlinearity to the transform domain layers. Compared to the Conv2D layer, which is spatial-agnostic and channel-specific, the proposed layers are location-specific and channel-specific. Moreover, these proposed layers reduce the number of parameters and multiplications significantly while improving the accuracy results of regular ResNets on the ImageNet-1K classification task. Furthermore, they can be inserted with a batch normalization layer before the global average pooling layer in the conventional ResNets as an additional layer to improve classification accuracy.

arxiv情報

著者 Hongyi Pan,Emadeldeen Hamdan,Xin Zhu,Salih Atici,Ahmet Enis Cetin
発行日 2024-03-31 14:35:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP パーマリンク