Magnitude Invariant Parametrizations Improve Hypernetwork Learning

要約

ハイパーネットワークは、別のニューラル ネットワークのパラメーターを予測するニューラル ネットワークであり、画像生成からマルチタスク学習まで、さまざまなアプリケーションで成功裏に使用されている強力なモデルです。
残念ながら、既存のハイパーネットワークはトレーニングが難しいことがよくあります。
通常、トレーニングの収束は非ハイパーネットワーク モデルよりもはるかに遅く、収束速度はハイパーパラメーターの選択に非常に影響される可能性があります。
この研究では、ハイパーネットワークのトレーニングの課題に寄与する、これまで未確認だった基本的な問題、つまりハイパーネットワークの入力と出力間の大きさの比例関係を特定します。
私たちは、これが不安定な最適化につながり、それによって収束が遅くなり、場合によっては学習が妨げられる可能性があることを分析と経験の両方で実証します。
私たちは、Magnitude Invariant Parametrizations (MIP) と呼ばれる改訂されたハイパーネットワーク公式を使用して、この問題に対する簡単な解決策を提案します。
提案されたソリューションをいくつかのハイパーネットワーク タスクで実証し、トレーニングを一貫して安定させ、より高速な収束を実現します。
さらに、活性化関数、正規化戦略、入力次元、ハイパーネットワーク アーキテクチャの選択を含む包括的なアブレーション研究を実行します。
そして、MIP があらゆるシナリオでトレーニングを改善することがわかりました。
既存のネットワークを MIP ベースのハイパーネットワークに変えることができる使いやすいコードを提供します。

要約(オリジナル)

Hypernetworks, neural networks that predict the parameters of another neural network, are powerful models that have been successfully used in diverse applications from image generation to multi-task learning. Unfortunately, existing hypernetworks are often challenging to train. Training typically converges far more slowly than for non-hypernetwork models, and the rate of convergence can be very sensitive to hyperparameter choices. In this work, we identify a fundamental and previously unidentified problem that contributes to the challenge of training hypernetworks: a magnitude proportionality between the inputs and outputs of the hypernetwork. We demonstrate both analytically and empirically that this can lead to unstable optimization, thereby slowing down convergence, and sometimes even preventing any learning. We present a simple solution to this problem using a revised hypernetwork formulation that we call Magnitude Invariant Parametrizations (MIP). We demonstrate the proposed solution on several hypernetwork tasks, where it consistently stabilizes training and achieves faster convergence. Furthermore, we perform a comprehensive ablation study including choices of activation function, normalization strategies, input dimensionality, and hypernetwork architecture; and find that MIP improves training in all scenarios. We provide easy-to-use code that can turn existing networks into MIP-based hypernetworks.

arxiv情報

著者 Jose Javier Gonzalez Ortiz,John Guttag,Adrian Dalca
発行日 2023-06-29 16:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク