要約
大規模言語モデル (LLM) では経験的な現象が観察されています。ごく少数のアクティベーションが、他のアクティベーションよりも大幅に大きな値 (たとえば、100,000 倍) を示します。
私たちはそれらを大規模なアクティベーションと呼んでいます。
まず、さまざまな LLM にわたって大規模なアクティベーションが広範囲に存在することを実証し、その場所を特徴付けます。
第 2 に、それらの値は入力に関係なくほぼ一定のままであり、LLM では不可欠なバイアス項として機能することがわかります。
第三に、これらの大規模な活性化は、対応するトークンへの注意確率の集中をもたらし、さらに、自己注意出力における暗黙的なバイアス項をもたらします。
最後に、ビジョン トランスフォーマーにおける大規模なアクティベーションについても研究します。
要約(オリジナル)
We observe an empirical phenomenon in Large Language Models (LLMs) — very few activations exhibit significantly larger values than others (e.g., 100,000 times larger). We call them massive activations. First, we demonstrate the widespread existence of massive activations across various LLMs and characterize their locations. Second, we find their values largely stay constant regardless of the input, and they function as indispensable bias terms in LLMs. Third, these massive activations lead to the concentration of attention probabilities to their corresponding tokens, and further, implicit bias terms in the self-attention output. Last, we also study massive activations in Vision Transformers.
arxiv情報
著者 | Mingjie Sun,Xinlei Chen,J. Zico Kolter,Zhuang Liu |
発行日 | 2024-02-27 18:55:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google