GradMax: Growing Neural Networks using Gradient Information

要約

ニューラルネットワークのアーキテクチャとパラメータは独立して最適化されることが多く、アーキテクチャを変更するたびにパラメータの再トレーニングを行う必要があり、コストがかかる。本研究では、その代わりに、コストのかかる再トレーニングを必要とせずにアーキテクチャを成長させることに焦点を当てる。我々は、学習ダイナミクスを改善しつつ、既に学習した内容に影響を与えることなく、学習中に新しいニューロンを追加する方法を提示する。後者は、新しい重みの勾配を最大化し、特異値分解(SVD)によって最適な初期化を効率的に見つけることによって達成される。この手法をGradient Maximizing Growth (GradMax)と呼び、様々なビジョンタスクやアーキテクチャにおいてその有効性を実証している。

要約(オリジナル)

The architecture and the parameters of neural networks are often optimized independently, which requires costly retraining of the parameters whenever the architecture is modified. In this work we instead focus on growing the architecture without requiring costly retraining. We present a method that adds new neurons during training without impacting what is already learned, while improving the training dynamics. We achieve the latter by maximizing the gradients of the new weights and find the optimal initialization efficiently by means of the singular value decomposition (SVD). We call this technique Gradient Maximizing Growth (GradMax) and demonstrate its effectiveness in variety of vision tasks and architectures.

arxiv情報

著者 Utku Evci,Bart van Merriënboer,Thomas Unterthiner,Max Vladymyrov,Fabian Pedregosa
発行日 2022-06-07 15:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク