要約
深層学習におけるハイパーパラメータ調整のコストはモデルのサイズに応じて増加しているため、実践者はより小規模なネットワークのプロキシを使用した新しい調整方法を見つけることが求められています。
そのような提案の 1 つは $\mu$P パラメータ化ネットワークを使用しており、狭い幅のネットワークに最適なハイパーパラメータが任意の大きな幅のネットワークに転送されます。
ただし、このスキームでは、ハイパーパラメータは深さを越えて転送されません。
解決策として、$\mu$P パラメータ化と組み合わせて、$1/\sqrt{\text{ Depth}}$ の残差分岐スケールを持つ残差ネットワークを研究します。
このパラメータ化でトレーニングされた畳み込み ResNet およびビジョン トランスフォーマーを含む残差アーキテクチャが、CIFAR-10 および ImageNet 上の幅と深さにわたって最適なハイパーパラメーターの転送を示すことを実証する実験を提供します。
さらに、私たちの経験的発見は理論によって裏付けられ、動機付けられています。
ニューラル ネットワーク学習ダイナミクスの動的平均場理論 (DMFT) 記述の最近の発展を使用して、ResNets のこのパラメーター化が、結合の無限幅と無限深さの制限を学習する明確に定義された特徴を許容することを示し、有限サイズ ネットワークの収束を示します。
この限界に向かうダイナミクス。
要約(オリジナル)
The cost of hyperparameter tuning in deep learning has been rising with model sizes, prompting practitioners to find new tuning methods using a proxy of smaller networks. One such proposal uses $\mu$P parameterized networks, where the optimal hyperparameters for small width networks transfer to networks with arbitrarily large width. However, in this scheme, hyperparameters do not transfer across depths. As a remedy, we study residual networks with a residual branch scale of $1/\sqrt{\text{depth}}$ in combination with the $\mu$P parameterization. We provide experiments demonstrating that residual architectures including convolutional ResNets and Vision Transformers trained with this parameterization exhibit transfer of optimal hyperparameters across width and depth on CIFAR-10 and ImageNet. Furthermore, our empirical findings are supported and motivated by theory. Using recent developments in the dynamical mean field theory (DMFT) description of neural network learning dynamics, we show that this parameterization of ResNets admits a well-defined feature learning joint infinite-width and infinite-depth limit and show convergence of finite-size network dynamics towards this limit.
arxiv情報
著者 | Blake Bordelon,Lorenzo Noci,Mufan Bill Li,Boris Hanin,Cengiz Pehlevan |
発行日 | 2023-12-08 18:19:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google