On the impact of activation and normalization in obtaining isometric embeddings at initialization

要約

この論文では、入力のバッチに対応する出力のペアごとの内積を含む、ディープ ニューラル ネットワークの最後から 2 番目のグラム行列の構造を調査します。
いくつかのアーキテクチャでは、このグラム行列が初期化時に深さとともに縮退し、トレーニングが大幅に遅くなることが観察されています。
バッチ正規化やレイヤー正規化などの正規化レイヤーは、ランク崩壊の問題を防ぐ上で極めて重要な役割を果たします。
有望な進歩にもかかわらず、既存の理論的結果は、変圧器で広く使用されている層の正規化には及ばず、非線形活性化の役割を定量的に特徴付けることはできません。
このギャップを埋めるために、層正規化が活性化層と連携して、初期化時の深さに応じて指数関数的な割合で多層パーセプトロンのグラム行列を単位行列に向けてバイアスすることを証明します。
活性化関数のエルミート展開を使用して、この速度を定量化します。

要約(オリジナル)

In this paper, we explore the structure of the penultimate Gram matrix in deep neural networks, which contains the pairwise inner products of outputs corresponding to a batch of inputs. In several architectures it has been observed that this Gram matrix becomes degenerate with depth at initialization, which dramatically slows training. Normalization layers, such as batch or layer normalization, play a pivotal role in preventing the rank collapse issue. Despite promising advances, the existing theoretical results do not extend to layer normalization, which is widely used in transformers, and can not quantitatively characterize the role of non-linear activations. To bridge this gap, we prove that layer normalization, in conjunction with activation layers, biases the Gram matrix of a multilayer perceptron towards the identity matrix at an exponential rate with depth at initialization. We quantify this rate using the Hermite expansion of the activation function.

arxiv情報

著者 Amir Joudaki,Hadi Daneshmand,Francis Bach
発行日 2023-10-29 17:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク