Initializing Models with Larger Ones

要約

重みの初期化は、ニューラル ネットワークのトレーニングにおいて重要な役割を果たします。
広く使用されている初期化方法が提案され、最初からトレーニングされたネットワークに対して評価されます。
ただし、事前トレーニング済みモデルの数が増えているため、重みの初期化というこの古典的な問題に取り組む新たな機会が提供されています。
この作業では、事前トレーニングされたより大きなモデルから重みのサブセットを選択することによって、より小さなモデルを初期化する方法である重み選択を導入します。
これにより、事前トレーニングされた重みからより小さなモデルへの知識の伝達が可能になります。
私たちの実験は、重みを選択することで小型モデルのパフォーマンスを大幅に向上させ、トレーニング時間を短縮できることを示しています。
特に、知識の蒸留と併用することもできます。
重みの選択は、リソースに制約のある設定で事前トレーニングされたモデルの力を活用するための新しいアプローチを提供します。これが、大規模モデルの時代に小規模なモデルをトレーニングするための有用なツールになることを期待しています。
コードは https://github.com/OscarXZQ/weight-selection で入手できます。

要約(オリジナル)

Weight initialization plays an important role in neural network training. Widely used initialization methods are proposed and evaluated for networks that are trained from scratch. However, the growing number of pretrained models now offers new opportunities for tackling this classical problem of weight initialization. In this work, we introduce weight selection, a method for initializing smaller models by selecting a subset of weights from a pretrained larger model. This enables the transfer of knowledge from pretrained weights to smaller models. Our experiments demonstrate that weight selection can significantly enhance the performance of small models and reduce their training time. Notably, it can also be used together with knowledge distillation. Weight selection offers a new approach to leverage the power of pretrained models in resource-constrained settings, and we hope it can be a useful tool for training small models in the large-model era. Code is available at https://github.com/OscarXZQ/weight-selection.

arxiv情報

著者 Zhiqiu Xu,Yanjie Chen,Kirill Vishniakov,Yida Yin,Zhiqiang Shen,Trevor Darrell,Lingjie Liu,Zhuang Liu
発行日 2023-11-30 18:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク