Understanding and Minimising Outlier Features in Neural Network Training

要約

外れ値特徴 (OF) は、その活性化の大きさがニューラル ネットワーク (NN) 幅の平均を大幅に超えるニューロンです。
これらは、標準的なトランスフォーマーのトレーニング中に出現し、影響を受けるモデルの量子化を妨げるという望ましくない影響を与えることがよく知られています。
その実用的な重要性にもかかわらず、トレーニング中に OF が出現する理由や、OF を最小限に抑える方法についてはほとんどわかっていません。
私たちの研究は上記の質問に焦点を当てており、最初に OF を測定するためのニューロン活性化基準に対する尖度などのいくつかの定量的指標を特定します。
これらの指標を使用して、アーキテクチャと最適化の選択が OF にどのような影響を与えるかを調査し、トレーニング中に OF を最小限に抑えるための実践的な洞察を提供します。
ハイライトとして、トレーニング全体を通じて信号伝播​​を制御することの重要性を強調し、収束速度やトレーニングの安定性を損なうことなく、標準の Pre-Norm 層を削除して OF を軽減する Outlier Protected トランスフォーマー ブロックを提案します。
全体として、私たちの調査結果は、NN トレーニングのダイナミクスにおけるこの重要な側面の理解、防止能力、複雑さに新たな光を当てています。

要約(オリジナル)

Outlier Features (OF) are neurons whose activation magnitudes significantly exceed the average over a neural network’s (NN) width. They are well known to emerge during standard transformer training and have the undesirable effect of hindering quantisation in afflicted models. Despite their practical importance, little is known behind why OFs emerge during training, nor how one can minimise them. Our work focuses on the above questions, first identifying several quantitative metrics, such as the kurtosis over neuron activation norms, to measure OFs. With these metrics, we study how architectural and optimisation choices influence OFs, and provide practical insights to minimise OFs during training. As highlights, we emphasise the importance of controlling signal propagation throughout training, and propose the Outlier Protected transformer block, which removes standard Pre-Norm layers to mitigate OFs, without loss of convergence speed or training stability. Overall, our findings shed new light on our understanding of, our ability to prevent, and the complexity of this important facet in NN training dynamics.

arxiv情報

著者 Bobby He,Lorenzo Noci,Daniele Paliotta,Imanol Schlag,Thomas Hofmann
発行日 2024-05-29 17:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク