On the Shift Invariance of Max Pooling Feature Maps in Convolutional Neural Networks

要約

この論文は、画像分類のコンテキストにおける畳み込みニューラル ネットワーク (CNN) の数学的解釈可能性の向上に焦点を当てています。
具体的には、最初の層で発生する不安定性の問題に取り組みます。この層は、ImageNet などのデータセットでトレーニングされた場合に、指向性バンドパス フィルターによく似たパラメーターを学習する傾向があります。
このようなガボールのようなフィルターを使用したサブサンプリングされた畳み込みはエイリアシングが発生しやすく、小さな入力シフトに敏感になります。
これに関連して、最大プーリング演算子がほぼシフト不変である複素係数を近似する条件を確立します。
次に、サブサンプリングされた畳み込みとそれに続く最大プーリングのシフト不変性の尺度を導出します。
特に、安定性を達成する上でフィルターの周波数と方向が果たす重要な役割を強調します。
離散ガボール様分解の特定のケースである双ツリー複素ウェーブレット パケット変換に基づく決定論的特徴抽出器を考慮することにより、理論を実験的に検証します。

要約(オリジナル)

This paper focuses on improving the mathematical interpretability of convolutional neural networks (CNNs) in the context of image classification. Specifically, we tackle the instability issue arising in their first layer, which tends to learn parameters that closely resemble oriented band-pass filters when trained on datasets like ImageNet. Subsampled convolutions with such Gabor-like filters are prone to aliasing, causing sensitivity to small input shifts. In this context, we establish conditions under which the max pooling operator approximates a complex modulus, which is nearly shift invariant. We then derive a measure of shift invariance for subsampled convolutions followed by max pooling. In particular, we highlight the crucial role played by the filter’s frequency and orientation in achieving stability. We experimentally validate our theory by considering a deterministic feature extractor based on the dual-tree complex wavelet packet transform, a particular case of discrete Gabor-like decomposition.

arxiv情報

著者 Hubert Leterme,Kévin Polisano,Valérie Perrier,Karteek Alahari
発行日 2023-10-24 12:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.SP, stat.ML パーマリンク