Pretraining a Neural Network before Knowing Its Architecture

要約

大規模なニューラルネットワークのトレーニングは、大規模なニューラルネットワークのパラメーターを予測する小規模なハイパーネットワークをトレーニングすることで可能になります。
最近リリースされたGraphHyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャでこのようにトレーニングされており、ResNet-50などの目に見えない大規模なネットワークのパラメータを予測できます。
予測されたパラメーターを持つネットワークはソースタスクのパフォーマンスを低下させますが、予測されたパラメーターは他のタスクの微調整に役立つことがわかっています。
同じGHNに基づく微調整が、GHNのトレーニング後に公開された新しい強力なアーキテクチャでまだ役立つかどうかを調査します。
ConvNeXtなどの最近のアーキテクチャでは、GHNの初期化はResNet-50よりも有用性が低くなることがわかりました。
考えられる理由の1つは、GHNのトレーニングに使用されるアーキテクチャからの新しいアーキテクチャの分散シフトの増加です。
また、予測されたパラメーターには、最急降下法でパラメーターを正常に微調整するために必要な多様性が欠けていることもわかりました。
予測されたパラメーターをターゲットタスクで微調整する前に、単純な後処理手法を適用することでこの制限を緩和し、ResNet-50とConvNeXtの微調整を改善します。

要約(オリジナル)

Training large neural networks is possible by training a smaller hypernetwork that predicts parameters for the large ones. A recently released Graph HyperNetwork (GHN) trained this way on one million smaller ImageNet architectures is able to predict parameters for large unseen networks such as ResNet-50. While networks with predicted parameters lose performance on the source task, the predicted parameters have been found useful for fine-tuning on other tasks. We study if fine-tuning based on the same GHN is still useful on novel strong architectures that were published after the GHN had been trained. We found that for recent architectures such as ConvNeXt, GHN initialization becomes less useful than for ResNet-50. One potential reason is the increased distribution shift of novel architectures from those used to train the GHN. We also found that the predicted parameters lack the diversity necessary to successfully fine-tune parameters with gradient descent. We alleviate this limitation by applying simple post-processing techniques to predicted parameters before fine-tuning them on a target task and improve fine-tuning of ResNet-50 and ConvNeXt.

arxiv情報

著者 Boris Knyazev
発行日 2022-07-20 17:27:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク