Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent

要約

広く採用されているトランスフォーマーのようなニューラル ネットワークの容量は、非常に高いことが知られています。
トレーニング ルーチンにおける帰納的バイアス (通常は勾配降下法 (GD) の変種) により、学習が成功しているという証拠が明らかになりつつあります。
このバイアスをよりよく理解するために、トレーニング中に変換パラメーターが大きくなる傾向 ($\ell_2$ ノルム) と、自己注意層内の創発的表現に対するその影響を研究します。
経験的に、事前トレーニング中の T5 を含む変換言語モデルのトレーニングにおけるノルムの成長を記録します。
パラメータの大きさが大きくなるにつれて、ネットワークが飽和活性化関数を持つ離散化されたネットワークに近似することを証明します。
このような「飽和した」ネットワークは、形式言語とオートマトンの観点から記述できる完全なネットワーク ファミリと比較して、容量が少ないことが知られています。
私たちの結果は、飽和が、NLP にとって特に興味深い GD に内在する誘導バイアスの新しい特徴付けであることを示唆しています。
飽和トランスフォーマーの新たな離散構造を利用して、さまざまな注意ヘッドの役割を分析し、少数の位置に局所的に焦点を当てているヘッドもあれば、グローバル平均を計算してカウントできるようにするヘッドもあることがわかりました。
これら 2 つの機能の相互作用を理解することで、大規模なトランスフォーマー内の計算の構造がさらに明らかになる可能性があると考えています。

要約(オリジナル)

The capacity of neural networks like the widely adopted transformer is known to be very high. Evidence is emerging that they learn successfully due to inductive bias in the training routine, typically a variant of gradient descent (GD). To better understand this bias, we study the tendency for transformer parameters to grow in magnitude ($\ell_2$ norm) during training, and its implications for the emergent representations within self attention layers. Empirically, we document norm growth in the training of transformer language models, including T5 during its pretraining. As the parameters grow in magnitude, we prove that the network approximates a discretized network with saturated activation functions. Such ‘saturated’ networks are known to have a reduced capacity compared to the full network family that can be described in terms of formal languages and automata. Our results suggest saturation is a new characterization of an inductive bias implicit in GD of particular interest for NLP. We leverage the emergent discrete structure in a saturated transformer to analyze the role of different attention heads, finding that some focus locally on a small number of positions, while other heads compute global averages, allowing counting. We believe understanding the interplay between these two capabilities may shed further light on the structure of computation within large transformers.

arxiv情報

著者 William Merrill,Vivek Ramanujan,Yoav Goldberg,Roy Schwartz,Noah Smith
発行日 2023-03-07 23:09:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク