Linear CNNs Discover the Statistical Structure of the Dataset Using Only the Most Dominant Frequencies

要約

一般的な畳み込みニューラルネットワーク(CNN)の内部動作に関する理論的理解は限られている。我々は、線形CNNの学習理論という形で、このような理解への新たな足がかりを提示する。勾配降下方程式を分析することで、畳み込みの使用はデータセット構造とネットワーク構造のミスマッチを引き起こすことを発見する。線形CNNがデータセットの統計的構造を、非線形の段階的な遷移で発見すること、この構造的ミスマッチによって発見速度が変化することを示す。さらに、このミスマッチは、我々が「支配的周波数バイアス」と呼ぶものの核心であり、線形CNNは、データセットに存在する異なる構造部分の支配的周波数のみを用いてこれらの発見に到達することを発見した。この発見は、一般的なCNNのいくつかの特徴、例えば、近道学習や、形状ではなく質感に依存する傾向の説明に役立つと考えられる。

要約(オリジナル)

Our theoretical understanding of the inner workings of general convolutional neural networks (CNN) is limited. We here present a new stepping stone towards such understanding in the form of a theory of learning in linear CNNs. By analyzing the gradient descent equations, we discover that using convolutions leads to a mismatch between the dataset structure and the network structure. We show that linear CNNs discover the statistical structure of the dataset with non-linear, stage-like transitions, and that the speed of discovery changes depending on this structural mismatch. Moreover, we find that the mismatch lies at the heart of what we call the ‘dominant frequency bias’, where linear CNNs arrive at these discoveries using only the dominant frequencies of the different structural parts present in the dataset. Our findings can help explain several characteristics of general CNNs, such as their shortcut learning and their tendency to rely on texture instead of shape.

arxiv情報

著者 Hannah Pinson,Joeri Lenaerts,Vincent Ginis
発行日 2023-03-03 15:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, F.2.2 パーマリンク