要約
アクティベーションの希薄性は、アクティベーション出力内に、除去できる寄与度の低い要素が実質的に存在することを示し、大規模言語モデル (LLM) に関連する多くの重要なアプリケーションに利益をもたらします。
LLM 内の活性化の希薄性をさらに促進することは詳細な研究に値しますが、既存の研究には、活性化の希薄性と潜在的に影響を与える要因との相関関係に関する包括的かつ定量的な研究が不足しています。
この論文では、デコーダのみの Transformer ベースの LLM 内の活性化スパース性の定量的スケーリング特性と影響因子に関する包括的な研究を紹介します。
具体的には、あらゆる活性化関数に適用できる、正確でパフォーマンスを意識した活性化スパース性メトリックである PPL-$p\%$ スパース性を提案します。
広範な実験を通じて、私たちはいくつかの重要な現象を発見しました。
まず、異なる活性化関数は同等のパフォーマンスを示しますが、トレーニング時間のスパース性の傾向は反対です。
活性化率 (つまり、$1-\mathrm{sparsity\ rate}$) は、SiLU でアクティブ化された LLM と ReLU でアクティブ化された LLM のトレーニング データの量に応じて、それぞれ収束する増加べき乗則と減少する対数空間べき乗則として進化します。
これらは、ReLU が SiLU よりも活性化関数として効率的であり、より多くのトレーニング データを活用して活性化のスパース性を改善できることを示しています。
第 2 に、アクティブ化率は、特定のボトルネック点を下回ると幅と深さの比率が線形に増加します。これは、固定パラメータ スケールでのより深いアーキテクチャの潜在的な利点を示しています。
最後に、同様の幅と深さの比では、驚くべきことに、活性化スパース性の限界値がパラメーター スケールに応じてわずかに変化すること、つまり、LLM 内の活性化パターンがパラメーター スケールに影響を受けないことがわかりました。
活性化のスパース性がより高い LLM に対するこれらの経験則は、LLM をより効率的で解釈しやすくする上で重要な意味を持ちます。
要約(オリジナル)
Activation sparsity denotes the existence of substantial weakly-contributed elements within activation outputs that can be eliminated, benefiting many important applications concerned with large language models (LLMs). Although promoting greater activation sparsity within LLMs deserves deep studies, existing works lack comprehensive and quantitative research on the correlation between activation sparsity and potentially influential factors. In this paper, we present a comprehensive study on the quantitative scaling properties and influential factors of the activation sparsity within decoder-only Transformer-based LLMs. Specifically, we propose PPL-$p\%$ sparsity, a precise and performance-aware activation sparsity metric that is applicable to any activation function. Through extensive experiments, we find several important phenomena. Firstly, different activation functions exhibit comparable performance but opposite training-time sparsity trends. The activation ratio (i.e., $1-\mathrm{sparsity\ ratio}$) evolves as a convergent increasing power-law and decreasing logspace power-law with the amount of training data for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate that ReLU is more efficient as the activation function than SiLU and can leverage more training data to improve activation sparsity. Secondly, the activation ratio linearly increases with the width-depth ratio below a certain bottleneck point, indicating the potential advantage of a deeper architecture at a fixed parameter scale. Finally, at similar width-depth ratios, we surprisingly find that the limit value of activation sparsity varies weakly with the parameter scale, i.e., the activation patterns within LLMs are insensitive to the parameter scale. These empirical laws towards LLMs with greater activation sparsity have important implications for making LLMs more efficient and interpretable.
arxiv情報
著者 | Yuqi Luo,Chenyang Song,Xu Han,Yingfa Chen,Chaojun Xiao,Zhiyuan Liu,Maosong Sun |
発行日 | 2024-11-04 17:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google