What do CNNs Learn in the First Layer and Why? A Linear Systems Perspective

要約

深い畳み込みニューラル ネットワーク (CNN) の最初の層で学習される表現は、初期化とアーキテクチャ全体で非常に一貫性があることが以前に報告されています。
この作業では、最初のレイヤーをフィルターバンクと見なし、そのエネルギー分布を測定することにより、この一貫性を定量化します。
エネルギー分布は初期の重みの分布とは大きく異なり、ランダムな初期化、データセット、アーキテクチャ、さらには CNN がランダムなラベルでトレーニングされている場合でも一貫性があることがわかりました。
この一貫性を説明するために、線形 CNN のエネルギー プロファイルの解析式を導出し、このプロファイルがトレーニング セット内の画像パッチの 2 次統計によってほとんど決定されることを示します。
反復は無限に進みます。
最後に、線形 CNN のこの式は、ResNet や VGG などの一般的に使用される非線形 CNN によって学習されたエネルギー プロファイルにも優れた適合性を示し、これらの CNN の最初の層が実際に入力の近似ホワイトニングを実行することを示します。

要約(オリジナル)

It has previously been reported that the representation that is learned in the first layer of deep Convolutional Neural Networks (CNNs) is highly consistent across initializations and architectures. In this work, we quantify this consistency by considering the first layer as a filter bank and measuring its energy distribution. We find that the energy distribution is very different from that of the initial weights and is remarkably consistent across random initializations, datasets, architectures and even when the CNNs are trained with random labels. In order to explain this consistency, we derive an analytical formula for the energy profile of linear CNNs and show that this profile is mostly dictated by the second order statistics of image patches in the training set and it will approach a whitening transformation when the number of iterations goes to infinity. Finally, we show that this formula for linear CNNs also gives an excellent fit for the energy profiles learned by commonly used nonlinear CNNs such as ResNet and VGG, and that the first layer of these CNNs indeed perform approximate whitening of their inputs.

arxiv情報

著者 Rhea Chowers,Yair Weiss
発行日 2023-02-14 14:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク