DC is all you need: describing ReLU from a signal processing standpoint

要約

非線形活性化関数は、畳み込みニューラル ネットワークにおいて重要です。
しかし、これまで周波数領域ではそれらは十分に説明されていませんでした。
この研究では、人気のある活性化関数である ReLU のスペクトル挙動を研究します。
ReLU のテイラー展開を使用して、その周波数領域の動作を導き出します。
ReLU が信号に高周波振動と一定の DC 成分を導入することを実証します。
さらに、この DC 成分の重要性を調査し、この DC 成分がモデルが入力周波数成分に関連する意味のある特徴を抽出するのに役立つことを実証します。
理論的な導出には実験と実際の例を伴います。
まず、周波数応答モデルを数値的に検証します。
次に、2 つのモデル例と現実世界のモデルで ReLU のスペクトル動作を観察します。
最後に、CNN の表現において ReLU によって導入された DC コンポーネントの役割を実験的に調査します。
私たちの結果は、DC が初期のランダムな重みに近い重み構成に収束するのに役立つことを示しています。

要約(オリジナル)

Non-linear activation functions are crucial in Convolutional Neural Networks. However, until now they have not been well described in the frequency domain. In this work, we study the spectral behavior of ReLU, a popular activation function. We use the ReLU’s Taylor expansion to derive its frequency domain behavior. We demonstrate that ReLU introduces higher frequency oscillations in the signal and a constant DC component. Furthermore, we investigate the importance of this DC component, where we demonstrate that it helps the model extract meaningful features related to the input frequency content. We accompany our theoretical derivations with experiments and real-world examples. First, we numerically validate our frequency response model. Then we observe ReLU’s spectral behavior on two example models and a real-world one. Finally, we experimentally investigate the role of the DC component introduced by ReLU in the CNN’s representations. Our results indicate that the DC helps to converge to a weight configuration that is close to the initial random weights.

arxiv情報

著者 Christodoulos Kechris,Jonathan Dan,Jose Miranda,David Atienza
発行日 2024-07-23 15:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク