IDInit: A Universal and Stable Initialization Method for Neural Network Training

要約

深いニューラルネットワークは、実際に顕著な成果を達成しています。
これらのネットワークの成功は、効果的な初期化方法にかかっています。これは、トレーニング中に安定した迅速な収束を確保するために不可欠です。
最近、レイヤー内でアイデンティティの遷移を維持する初期化方法は、ネットワークトレーニングの効率が良好であることを示しています。
これらの手法(例:FixUp)は、特定の重みをゼロに設定して、IDコントロールを実現します。
ただし、残りの重量の設定(たとえば、Fixupはランダム値を使用して非ゼロ重量を初期化する)は、ゼロ重量のみで達成される誘導バイアスに影響を及ぼし、トレーニングに有害な場合があります。
この懸念に対処すると、完全に同一の初期化(IDINIT)を導入します。これは、残差ネットワークの主要な根本層とサブステム層の両方でアイデンティティを保持する新しい方法です。
Idinitは、非二乗重量マトリックスのランク制約を克服するために、パッド入りのアイデンティティのようなマトリックスを採用しています。
さらに、アイデンティティマトリックスの収束問題は、確率的勾配降下によって解決できることを示します。
さらに、高次の重みを処理し、死んだニューロンの問題に対処することにより、Idinitの普遍性を高めます。
Idinitは、大規模なデータセットやディープモデルなど、さまざまな設定にわたって収束、安定性、パフォーマンスが向上した、簡単でありながら効果的な初期化方法です。

要約(オリジナル)

Deep neural networks have achieved remarkable accomplishments in practice. The success of these networks hinges on effective initialization methods, which are vital for ensuring stable and rapid convergence during training. Recently, initialization methods that maintain identity transition within layers have shown good efficiency in network training. These techniques (e.g., Fixup) set specific weights to zero to achieve identity control. However, settings of remaining weight (e.g., Fixup uses random values to initialize non-zero weights) will affect the inductive bias that is achieved only by a zero weight, which may be harmful to training. Addressing this concern, we introduce fully identical initialization (IDInit), a novel method that preserves identity in both the main and sub-stem layers of residual networks. IDInit employs a padded identity-like matrix to overcome rank constraints in non-square weight matrices. Furthermore, we show the convergence problem of an identity matrix can be solved by stochastic gradient descent. Additionally, we enhance the universality of IDInit by processing higher-order weights and addressing dead neuron problems. IDInit is a straightforward yet effective initialization method, with improved convergence, stability, and performance across various settings, including large-scale datasets and deep models.

arxiv情報

著者 Yu Pan,Chaozheng Wang,Zekai Wu,Qifan Wang,Min Zhang,Zenglin Xu
発行日 2025-03-06 17:12:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク