ReLU soothes the NTK condition number and accelerates optimization for wide neural networks

要約

非線形活性化関数としての ReLU (Rectified Linear Unit) は、十分な幅のニューラル ネットワークによって任意の連続関数を任意の精度に近似できるように、ニューラル ネットワークの表現力を向上させることがよく知られています。
この研究では、ReLU 活性化関数のもう 1 つの興味深い重要な機能を紹介します。
私たちは、ReLU が類似データの {\it より良い分離} と、密接に関連しているニューラル タンジェント カーネル (NTK) の {\it より良い調整} につながることを示します。
線形ニューラル ネットワークと比較して、ランダム初期化で ReLU で活性化されたワイド ニューラル ネットワークは、モデル勾配の特徴空間内の類似データの角度分離がより大きく、NTK の条件数がより小さいことを示します。
線形ニューラル ネットワークの場合、データ分離と NTK 条件数は常に線形モデルの場合と同じままであることに注意してください。
さらに、より深い ReLU ネットワーク (つまり、より多くの ReLU アクティベーション操作がある) は、浅いネットワークよりも NTK 条件数が小さいことを示します。
私たちの結果は、ReLU ネットワークの深さと同様に ReLU の活性化が、NTK 条件数と密接に関係する勾配降下収束率の向上に役立つことを示唆しています。

要約(オリジナル)

Rectified linear unit (ReLU), as a non-linear activation function, is well known to improve the expressivity of neural networks such that any continuous function can be approximated to arbitrary precision by a sufficiently wide neural network. In this work, we present another interesting and important feature of ReLU activation function. We show that ReLU leads to: {\it better separation} for similar data, and {\it better conditioning} of neural tangent kernel (NTK), which are closely related. Comparing with linear neural networks, we show that a ReLU activated wide neural network at random initialization has a larger angle separation for similar data in the feature space of model gradient, and has a smaller condition number for NTK. Note that, for a linear neural network, the data separation and NTK condition number always remain the same as in the case of a linear model. Furthermore, we show that a deeper ReLU network (i.e., with more ReLU activation operations), has a smaller NTK condition number than a shallower one. Our results imply that ReLU activation, as well as the depth of ReLU network, helps improve the gradient descent convergence rate, which is closely related to the NTK condition number.

arxiv情報

著者 Chaoyue Liu,Like Hui
発行日 2023-05-15 17:22:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク