Width and Depth Limits Commute in Residual Networks

要約

スキップ接続を備えたディープ ニューラル ネットワークで幅と深さを無限大にすると、ブランチが $1/\sqrt{深さ}$ (唯一の非自明なスケーリング) によってスケーリングされるとき、その制限がどのようになろうとも同じ共分散構造が得られることを示します。
取られます。
これは、標準の無限の幅、次に深さのアプローチが、幅と同じオーダーの深さを持つネットワークであっても実用的な洞察を提供する理由を説明しています。
また、この場合、事前活性化にはガウス分布があり、ベイジアン深層学習に直接適用できることも示します。
私たちは広範なシミュレーションを実施し、理論的調査結果との優れた一致を示しました。

要約(オリジナル)

We show that taking the width and depth to infinity in a deep neural network with skip connections, when branches are scaled by $1/\sqrt{depth}$ (the only nontrivial scaling), result in the same covariance structure no matter how that limit is taken. This explains why the standard infinite-width-then-depth approach provides practical insights even for networks with depth of the same order as width. We also demonstrate that the pre-activations, in this case, have Gaussian distributions which has direct applications in Bayesian deep learning. We conduct extensive simulations that show an excellent match with our theoretical findings.

arxiv情報

著者 Soufiane Hayou,Greg Yang
発行日 2023-08-10 16:09:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク