要約
低精度のトレーニングと量子化との関連性によって部分的に動機付けられ、最近、大規模な言語モデル(LLM)の大規模な活性化が関心のあるトピックとして浮上しています。
ただし、既存の分析の範囲は限られており、アーキテクチャ全体の一般化可能性は不明です。
このホワイトペーパーは、GLUベースのアーキテクチャと非Gluベースのアーキテクチャの両方を含む幅広いLLMで大規模な活性化の分析を実施することにより、これらのギャップのいくつかに対処するのに役立ちます。
私たちの調査結果は、いくつかの以前の仮定に挑戦します。最も重要なことは、(1)すべての大規模な活性化が有害ではないわけではない。つまり、それらを抑制しても、下流のタスクパフォーマンスの困惑や崩壊につながることはありません。
(2)注意KVバイアスなどの提案された緩和戦略は、特定の場合にモデル固有であり、効果がない。
その結果、新しいハイブリッド緩和戦略を調査します。
特に、ターゲット分散のペアリアンス(TVR)は注意KVバイアスまたはダイナミックタン(DYT)とのペアリングは、調査したシナリオでの保存された下流モデルパフォーマンスと大規模な活性化の緩和とうまくバランスを取ります。
私たちのコードは、https://github.com/bluorion-com/refine_massive_activationsで入手できます。
要約(オリジナル)
Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.
arxiv情報
著者 | Louis Owen,Nilabhra Roy Chowdhury,Abhay Kumar,Fabian Güra |
発行日 | 2025-03-28 11:08:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google