From Attention to Activation: Unravelling the Enigmas of Large Language Models

要約

私たちは、自己回帰トランスフォーマーにおける 2 つの奇妙な現象を研究します。(1) アテンションヘッドにおける最初のトークンの優位性。
(2) 隠れ状態での大きな外れ値の活性化の発生。
Llama などの人気のある大規模言語モデルは、注目の 98% の最初のトークンに最大限に注意を向けていることがわかりました。これはソフトマックス関数による動作であると考えられます。
この問題を軽減するために、ソフトマックスをソフトマックス-1 に再定式化することを提案します。
さらに、適応オプティマイザーを特定します。
Adam は、大きな外れ値のアクティベーションの主な貢献者として、この問題に対処するために、直交行列を利用して勾配を変換する新しいオプティマイザーである OrthoAdam を紹介します。
最後に、私たちの方法はこれらの現象の発生を防ぐだけでなく、基本的なアルゴリズムを使用して量子化されたときにトランスフォーマーのパフォーマンスを維持できるようにします。これは標準的な方法では不可能です。
要約すると、私たちの方法は、最初のトークンの注意の割合を 65% から 3.3% に、隠れ状態の活性化尖度を 1657 から 3.1 に、4 ビット重み量子化でのパープレキシティ ペナルティを 3565 から 0.3 に減少させます。

要約(オリジナル)

We study two strange phenomena in auto-regressive Transformers: (1) the dominance of the first token in attention heads; (2) the occurrence of large outlier activations in the hidden states. We find that popular large language models, such as Llama attend maximally to the first token in 98% of attention heads, a behaviour we attribute to the softmax function. To mitigate this issue, we propose a reformulation of softmax to softmax-1. Furthermore, we identify adaptive optimisers, e.g. Adam, as the primary contributor to the large outlier activations and introduce OrthoAdam, a novel optimiser that utilises orthogonal matrices to transform gradients, to address this issue. Finally, not only do our methods prevent these phenomena from occurring, but additionally, they enable Transformers to sustain their performance when quantised using basic algorithms, something that standard methods are unable to do. In summary, our methods reduce the attention proportion on the first token from 65% to 3.3%, the activation kurtosis in the hidden states from 1657 to 3.1, and perplexity penalty under 4-bit weight quantisation from 3565 to 0.3.

arxiv情報

著者 Prannay Kaul,Chengcheng Ma,Ismail Elezi,Jiankang Deng
発行日 2024-10-22 16:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク