From CNNs to Shift-Invariant Twin Models Based on Complex Wavelets

要約

タイトル:CNNから複素ウェーブレットに基づくシフトインバリアントツインモデルへ

要約:
– 複素ウェーブレットを用いた新しいアンチエイリアシング法を提案する。
– この手法は畳み込みニューラルネットワークにおけるシフトインバリアンスと予測精度を向上するためのものである。
– 一層目のコンビネーションを、実数値畳み込みと最大プーリング($\mathbb{R}$Max)から、複素値畳み込みとモジュラス($\mathbb{C}$Mod)に置き換えることによって、シフトに安定した構造に変更する。
– 畳み込みカーネルがバンドパスと向きがある場合には、$\mathbb{C}$Modと$\mathbb{R}$Maxは同等の出力を生じると主張し、$\mathbb{C}$Modは$\mathbb{R}$Maxへの安定な代替手法であると考えられる。
– アンチエイリアシング前に、畳み込みカーネルをガボールフィルタのような構造に変更して、数学的なツイン構造を採用する。
– 提案手法は、低周波フィルタリングに基づく従来の手法と比較して、ImageNetとCIFAR-10の分類タスクで優れた精度を実現する。
– 高周波の詳細情報を保持することに重点を置くことで、シフトインバリアンスと情報の保存のバランスが改善され、性能が向上する。
– 同時期の研究と比較して、低い計算コストとメモリフットプリントがあるため、実用的な実装のための有望な解決策となる。

要約(オリジナル)

We propose a novel antialiasing method to increase shift invariance and prediction accuracy in convolutional neural networks. Specifically, we replace the first-layer combination ‘real-valued convolutions + max pooling’ ($\mathbb{R}$Max) by ‘complex-valued convolutions + modulus’ ($\mathbb{C}$Mod), which is stable to translations. To justify our approach, we claim that $\mathbb{C}$Mod and $\mathbb{R}$Max produce comparable outputs when the convolution kernel is band-pass and oriented (Gabor-like filter). In this context, $\mathbb{C}$Mod can be considered as a stable alternative to $\mathbb{R}$Max. Thus, prior to antialiasing, we force the convolution kernels to adopt such a Gabor-like structure. The corresponding architecture is called mathematical twin, because it employs a well-defined mathematical operator to mimic the behavior of the original, freely-trained model. Our antialiasing approach achieves superior accuracy on ImageNet and CIFAR-10 classification tasks, compared to prior methods based on low-pass filtering. Arguably, our approach’s emphasis on retaining high-frequency details contributes to a better balance between shift invariance and information preservation, resulting in improved performance. Furthermore, it has a lower computational cost and memory footprint than concurrent work, making it a promising solution for practical implementation.

arxiv情報

著者 Hubert Leterme,Kévin Polisano,Valérie Perrier,Karteek Alahari
発行日 2023-04-21 15:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, eess.IV, stat.ML パーマリンク