Learning to Generate Parameters of ConvNets for Unseen Image Data

要約

一般的な畳み込みニューラル ネットワーク (ConvNet) は、大量の画像データに大きく依存し、ネットワーク パラメーターを学習するために反復最適化アルゴリズム (SGD や Adam など) に依存するため、トレーニングに非常に時間とリソースがかかります。
この論文では、新しいトレーニング パラダイムを提案し、ConvNet のパラメーター学習を予測タスクに定式化します。ConvNet アーキテクチャを前提として、画像データセットとそれに対応する最適なネットワーク パラメーターの間に相関関係が存在することを観察し、ハイパー トレーニング パラダイムを学習できるかどうかを調査します。
– それらの間のマッピングを行って関係をキャプチャすることで、トレーニング段階では決して見られなかった画像データセットのネットワークのパラメーターを直接予測できるようになります。
これを行うために、PudNet と呼ばれる新しいハイパーネットワーク ベースのモデルを提案しました。このモデルは、データセットとそれに対応するネットワーク パラメーター間のマッピングを学習し、1 回の前方伝播だけで目に見えないデータのパラメーターを予測することを目的としています。
さらに、私たちのモデルは、異なるネットワーク層間のパラメータの依存関係を捉えるために重みを共有する一連の適応型ハイパーリカレントユニットの恩恵を受けています。
広範な実験により、私たちの提案した方法が、データセット内予測とデータセット間予測の 2 種類の設定で、目に見えない画像データセットに対して優れた有効性を達成することが実証されました。
当社の PudNet は、ImageNet-1K などの大規模なデータセットにも十分にスケールアップできます。
GC を使用して ImageNet-1K 上で ResNet-18 を最初からトレーニングし、トップ 5 の精度 44.65 % を取得するには、8967 GPU 秒かかります。
ただし、当社の PudNet は、ResNet-18 のネットワーク パラメーターを予測するのにわずか 3.89 GPU 秒かかり、同等のパフォーマンス (44.92 %) を達成しており、従来のトレーニング パラダイムよりも 2,300 倍以上高速です。

要約(オリジナル)

Typical Convolutional Neural Networks (ConvNets) depend heavily on large amounts of image data and resort to an iterative optimization algorithm (e.g., SGD or Adam) to learn network parameters, which makes training very time- and resource-intensive. In this paper, we propose a new training paradigm and formulate the parameter learning of ConvNets into a prediction task: given a ConvNet architecture, we observe there exists correlations between image datasets and their corresponding optimal network parameters, and explore if we can learn a hyper-mapping between them to capture the relations, such that we can directly predict the parameters of the network for an image dataset never seen during the training phase. To do this, we put forward a new hypernetwork based model, called PudNet, which intends to learn a mapping between datasets and their corresponding network parameters, and then predicts parameters for unseen data with only a single forward propagation. Moreover, our model benefits from a series of adaptive hyper recurrent units sharing weights to capture the dependencies of parameters among different network layers. Extensive experiments demonstrate that our proposed method achieves good efficacy for unseen image datasets on two kinds of settings: Intra-dataset prediction and Inter-dataset prediction. Our PudNet can also well scale up to large-scale datasets, e.g., ImageNet-1K. It takes 8967 GPU seconds to train ResNet-18 on the ImageNet-1K using GC from scratch and obtain a top-5 accuracy of 44.65 %. However, our PudNet costs only 3.89 GPU seconds to predict the network parameters of ResNet-18 achieving comparable performance (44.92 %), more than 2,300 times faster than the traditional training paradigm.

arxiv情報

著者 Shiye Wang,Kaituo Feng,Changsheng Li,Ye Yuan,Guoren Wang
発行日 2023-10-18 10:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク