Sinusoidal Initialization, Time for a New Start

要約

初期化は、深いニューラルネットワークトレーニングにおいて重要な役割を果たし、収束、安定性、および一般化に直接影響を与えます。
GlorotやHEの初期化などの一般的なアプローチは、ランダム性に依存しており、レイヤー接続全体に不均一な重量分布を生成できます。
この論文では、正弦波機能を使用して構造化された重量マトリックスを構築して、ネットワーク全体の重量の広がりとバランスを改善すると同時に、最初の前方パスからのニューロン活性化状態のより均一でよく調整された分布を促進する新しい決定論的な方法である正弦波初期化を紹介します。
正弦波初期化は、すでに均等かつ効率的に利用されている重みと活性化から始まるため、畳み込みニューラルネットワーク、ビジョン変圧器、大規模な言語モデルなど、幅広いモデルで一貫してより速い収束、より大きなトレーニング安定性、およびより高い最終精度を実現します。
平均して、私たちの実験では、最終的な検証精度で4.9%、収束速度が20.9%増加しています。
ランダム性を構造に置き換えることにより、この初期化は、深い学習システムのためのより強力で信頼性の高い基盤を提供します。

要約(オリジナル)

Initialization plays a critical role in Deep Neural Network training, directly influencing convergence, stability, and generalization. Common approaches such as Glorot and He initializations rely on randomness, which can produce uneven weight distributions across layer connections. In this paper, we introduce the Sinusoidal initialization, a novel deterministic method that employs sinusoidal functions to construct structured weight matrices expressly to improve the spread and balance of weights throughout the network while simultaneously fostering a more uniform, well-conditioned distribution of neuron activation states from the very first forward pass. Because Sinusoidal initialization begins with weights and activations that are already evenly and efficiently utilized, it delivers consistently faster convergence, greater training stability, and higher final accuracy across a wide range of models, including convolutional neural networks, vision transformers, and large language models. On average, our experiments show an increase of 4.9% in final validation accuracy and 20.9% in convergence speed. By replacing randomness with structure, this initialization provides a stronger and more reliable foundation for Deep Learning systems.

arxiv情報

著者 Alberto Fernández-Hernández,Jose I. Mestre,Manuel F. Dolz,Jose Duato,Enrique S. Quintana-Ortí
発行日 2025-05-20 15:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, G.3 パーマリンク