要約
ニューラルネットワークの重みは一般に一変量分布からランダムに初期化され、畳み込みのような高度に構造化された演算でも個々の重みの分散だけを制御する。ConvMixerやConvNeXtなどの最近のViTに触発された畳み込みネットワークは、大きなカーネルの深さ方向の畳み込みを用い、その学習したフィルタが顕著な構造を持つことから、その経験共分散を研究する機会を提供するものである。さらに、小さなネットワークから計算された共分散は、深さ、幅、パッチサイズ、カーネルサイズの異なる様々な大きなネットワークの初期化に有効であり、共分散構造のモデル非依存性が示唆されることを見出した。これらの知見に基づき、我々は、畳み込みフィルタの共分散の簡単な閉形式構成を用いて、学習不要の多変量初期化方式を提案する。この初期化法を用いたモデルは、従来の一変量初期化法を用いたモデルよりも性能が高く、典型的には、学習済みフィルタの共分散から初期化されたモデルの性能を満たすか、それを上回る。
要約(オリジナル)
Neural network weights are typically initialized at random from univariate distributions, controlling just the variance of individual weights even in highly-structured operations like convolutions. Recent ViT-inspired convolutional networks such as ConvMixer and ConvNeXt use large-kernel depthwise convolutions whose learned filters have notable structure; this presents an opportunity to study their empirical covariances. In this work, we first observe that such learned filters have highly-structured covariance matrices, and moreover, we find that covariances calculated from small networks may be used to effectively initialize a variety of larger networks of different depths, widths, patch sizes, and kernel sizes, indicating a degree of model-independence to the covariance structure. Motivated by these findings, we then propose a learning-free multivariate initialization scheme for convolutional filters using a simple, closed-form construction of their covariance. Models using our initialization outperform those using traditional univariate initializations, and typically meet or exceed the performance of those initialized from the covariances of learned filters; in some cases, this improvement can be achieved without training the depthwise convolutional filters at all.
arxiv情報
| 著者 | Asher Trockman,Devin Willmott,J. Zico Kolter |
| 発行日 | 2022-10-07 15:59:13+00:00 |
| arxivサイト | arxiv_id(pdf) |