Scaling Laws for Sparsely-Connected Foundation Models

要約

私たちは、視覚領域と言語領域の両方で、大規模なデータセット (つまり、「基礎モデル」) でトレーニングされた Transformer のスケーリング動作に対するパラメーターのスパース性の影響を調査します。
この設定では、重みのスパース性、ゼロ以外のパラメーターの数、トレーニング データの量の間の関係を記述する最初のスケーリング則を特定します。これは、モデルとデータのスケール全体で経験的に検証されます。
ViT/JFT-4B および T5/C4 で。
これらの結果により、「最適なスパース性」、つまり、特定の有効なモデル サイズとトレーニング予算に対して最高のパフォーマンスを生み出すスパース性レベルを特徴付けることができます。
ゼロ以外のパラメーターの数が固定されている場合、トレーニングに使用されるデータの量に応じて最適なスパース性が増加することがわかります。
また、さまざまなスパース構造 (ハードウェアに適した n:m パターンなど) や戦略 (事前トレーニング済みの密なモデルから開始するなど) にも研究を拡張します。
私たちの発見は、さまざまなパラメーターと計算設定にわたる重みスパース性の力と限界を明らかにし、スパース性を活用して計算効率を向上させるための理論的理解と実践的な意味の両方を提供します。

要約(オリジナル)

We explore the impact of parameter sparsity on the scaling behavior of Transformers trained on massive datasets (i.e., ‘foundation models’), in both vision and language domains. In this setting, we identify the first scaling law describing the relationship between weight sparsity, number of non-zero parameters, and amount of training data, which we validate empirically across model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to characterize the ‘optimal sparsity’, the sparsity level which yields the best performance for a given effective model size and training budget. For a fixed number of non-zero parameters, we identify that the optimal sparsity increases with the amount of data used for training. We also extend our study to different sparsity structures (such as the hardware-friendly n:m pattern) and strategies (such as starting from a pretrained dense model). Our findings shed light on the power and limitations of weight sparsity across various parameter and computational settings, offering both theoretical understanding and practical implications for leveraging sparsity towards computational efficiency improvements.

arxiv情報

著者 Elias Frantar,Carlos Riquelme,Neil Houlsby,Dan Alistarh,Utku Evci
発行日 2023-09-15 16:29:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク