Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks

要約

整形された活性化 (つまり、ネットワークのサイズが大きくなるにつれて活性化関数がスケーリングされる) を使用したニューラル ネットワークの最近の解析により、微分方程式で記述されるスケーリングの限界が明らかになりました。
ただし、これらの結果は、ネットワークのサイズが大きくなっても活性化が変化しない「通常の」形状のないネットワークについては何も先験的に教えてくれません。
この記事では、2 種類の形状のないネットワークに対する同様の微分方程式に基づく漸近特性評価を示します。
まず、次の 2 つのアーキテクチャが初期化時に同じ無限の深さと幅の制​​限に収束することを示します: (i) 残差ブランチに $d^{-1/2}$ 因子を持つ完全に接続された ResNet。
$d$ はネットワークの深さです。
(ii) 深さ $d \ll$ 幅 $n$ とレート $d^{-1/2}$ の整形 ReLU 活性化を持つ多層パーセプトロン (MLP)。
次に、初期化時の形状のない MLP について、層ごとの相関に対する一次漸近補正を導出します。
特に、$\rho_\ell$ が層 $\ell$ での相関である場合、 $q_t = \ell^2 (1 – \rho_\ell)$ ($t = \frac{\ell}{n}) となります。
$ は、$t=0$ に特異点を持つ SDE に収束します。
これらの結果は、整形されたネットワーク アーキテクチャと整形されていないネットワーク アーキテクチャ間のつながりを提供し、正規化手法の効果とそれが整形活性化関数とどのように関連するかを研究する可能性を開きます。

要約(オリジナル)

Recent analyses of neural networks with shaped activations (i.e. the activation function is scaled as the network size grows) have led to scaling limits described by differential equations. However, these results do not a priori tell us anything about ‘ordinary’ unshaped networks, where the activation is unchanged as the network size grows. In this article, we find similar differential equation based asymptotic characterization for two types of unshaped networks. Firstly, we show that the following two architectures converge to the same infinite-depth-and-width limit at initialization: (i) a fully connected ResNet with a $d^{-1/2}$ factor on the residual branch, where $d$ is the network depth. (ii) a multilayer perceptron (MLP) with depth $d \ll$ width $n$ and shaped ReLU activation at rate $d^{-1/2}$. Secondly, for an unshaped MLP at initialization, we derive the first order asymptotic correction to the layerwise correlation. In particular, if $\rho_\ell$ is the correlation at layer $\ell$, then $q_t = \ell^2 (1 – \rho_\ell)$ with $t = \frac{\ell}{n}$ converges to an SDE with a singularity at $t=0$. These results together provide a connection between shaped and unshaped network architectures, and opens up the possibility of studying the effect of normalization methods and how it connects with shaping activation functions.

arxiv情報

著者 Mufan Bill Li,Mihai Nica
発行日 2023-10-18 16:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク