Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers

要約

このホワイト ペーパーでは、Transformer アーキテクチャを使用した機械学習モデルのアクティベーション マップがまばらであるという奇妙な現象について説明します。
アクティベーション マップとは、ReLU アクティベーション関数の後の多層パーセプトロン (MLP) の中間出力を指し、「スパース」とは、平均してエントリが非常に少ないことを意味します (たとえば、T5-Base では 3.0%、T5-Base では 6.3%)。
ViT-B16) は、MLP への各入力に対して非ゼロです。
さらに、より多くの層とより広い MLP 隠れ次元を持つより大きな Transformer は、ゼロ以外のエントリのパーセンテージによって測定されるように、まばらです。
広範な実験を通じて、スパース性の出現は、自然言語処理と視覚タスクの両方、トレーニング データと評価データの両方、さまざまな構成のトランスフォーマー、すべての深さレベルのレイヤー、およびその他のタスクで発生する一般的な現象であることを示しています。
MLP ミキサーと 2 層 MLP を含むアーキテクチャ。
ランダムなラベル、ランダムな入力、または無限の量のデータを持つトレーニング データセットを使用してスパース性も現れることを示し、スパース性が特定のデータセット ファミリの結果ではないことを示します。
スパース性が、FLOP カウントを大幅に削減し、Transformer の効率を向上させる方法をすぐに示唆する方法について説明します。
さらに、おそらく驚くべきことに、小さい値の k を使用して Top-k しきい値処理を介してさらにまばらなアクティベーションを適用すると、トランスフォーマーに必要であるが不足しているプロパティのコレクションがもたらされることを示しています。
予測の信頼性のためのキャリブレーション。

要約(オリジナル)

This paper studies the curious phenomenon for machine learning models with Transformer architectures that their activation maps are sparse. By activation map we refer to the intermediate output of the multi-layer perceptrons (MLPs) after a ReLU activation function, and by ‘sparse’ we mean that on average very few entries (e.g., 3.0% for T5-Base and 6.3% for ViT-B16) are nonzero for each input to MLP. Moreover, larger Transformers with more layers and wider MLP hidden dimensions are sparser as measured by the percentage of nonzero entries. Through extensive experiments we demonstrate that the emergence of sparsity is a prevalent phenomenon that occurs for both natural language processing and vision tasks, on both training and evaluation data, for Transformers of various configurations, at layers of all depth levels, as well as for other architectures including MLP-mixers and 2-layer MLPs. We show that sparsity also emerges using training datasets with random labels, or with random inputs, or with infinite amount of data, demonstrating that sparsity is not a result of a specific family of datasets. We discuss how sparsity immediately implies a way to significantly reduce the FLOP count and improve efficiency for Transformers. Moreover, we demonstrate perhaps surprisingly that enforcing an even sparser activation via Top-k thresholding with a small value of k brings a collection of desired but missing properties for Transformers, namely less sensitivity to noisy training data, more robustness to input corruptions, and better calibration for their prediction confidence.

arxiv情報

著者 Zonglin Li,Chong You,Srinadh Bhojanapalli,Daliang Li,Ankit Singh Rawat,Sashank J. Reddi,Ke Ye,Felix Chern,Felix Yu,Ruiqi Guo,Sanjiv Kumar
発行日 2022-10-12 15:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, stat.ML パーマリンク