From Pointwise to Powerhouse: Initialising Neural Networks with Generative Models

要約

従来の初期化方法。
彼とザビエルは、ニューラル ネットワークにおける勾配の消失または爆発の問題を効果的に回避してきました。
ただし、これらは 1 次元変数をモデル化する単純な点ごとの分布のみを使用します。
さらに、アーキテクチャに関するほとんどの情報を無視し、過去のトレーニング経験も無視します。
これらの制限は、初期化に生成モデルを採用することで克服できます。
このペーパーでは、新しい初期化方法の 2 つのグループを紹介します。
まず、変分オートエンコーダを使用して重みグループをローカルに初期化します。
次に、グラフ ハイパーネットワークを使用して、完全な重みセットをグローバルに初期化します。
私たちは、精度、収束速度、アンサンブルの観点から、採用された生成モデルが最先端のニューラル ネットワークに与える影響を徹底的に評価します。
私たちの結果は、グローバル初期化により精度が向上し、初期収束速度が向上することを示しています。
ただし、グラフ ハイパーネットワークを介した実装では、分布外のデータに対するアンサンブルのパフォーマンスが低下します。
これに対抗するために、生成されるアンサンブル メンバーの多様性を促進する、ノイズ グラフ ハイパーネットワークと呼ばれる修正を提案します。
さらに、私たちのアプローチは、学習した知識をさまざまな画像分布に転送できる可能性があります。
私たちの研究は、これらの新しい初期化方法の可能性、トレードオフ、および変更の可能性についての洞察を提供します。

要約(オリジナル)

Traditional initialisation methods, e.g. He and Xavier, have been effective in avoiding the problem of vanishing or exploding gradients in neural networks. However, they only use simple pointwise distributions, which model one-dimensional variables. Moreover, they ignore most information about the architecture and disregard past training experiences. These limitations can be overcome by employing generative models for initialisation. In this paper, we introduce two groups of new initialisation methods. First, we locally initialise weight groups by employing variational autoencoders. Secondly, we globally initialise full weight sets by employing graph hypernetworks. We thoroughly evaluate the impact of the employed generative models on state-of-the-art neural networks in terms of accuracy, convergence speed and ensembling. Our results show that global initialisations result in higher accuracy and faster initial convergence speed. However, the implementation through graph hypernetworks leads to diminished ensemble performance on out of distribution data. To counteract, we propose a modification called noise graph hypernetwork, which encourages diversity in the produced ensemble members. Furthermore, our approach might be able to transfer learned knowledge to different image distributions. Our work provides insights into the potential, the trade-offs and possible modifications of these new initialisation methods.

arxiv情報

著者 Christian Harder,Moritz Fuchs,Yuri Tolkach,Anirban Mukhopadhyay
発行日 2023-10-25 15:06:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.5.1 パーマリンク