The Emergence of Essential Sparsity in Large Pre-trained Models: The Weights that Matter

要約

事前にトレーニングされた大規模なトランスフォーマーは、現代の深層学習において主役であり、規模が大きくなるにつれて、トランスフォーマー内に存在する倹約パターンを理解することが重要になります。
パラメータ数が爆発的に増加するにつれて、宝くじ仮説 (LTH) とその亜種は、モデルの増加に伴って悪化する反復振幅枝刈り (IMP) の繰り返しの訓練、枝刈り、再訓練ルーチンの高い計算量とメモリのボトルネックにより、パラメータを希薄化する際の実用性を失いました。
サイズ。
この論文では、事前に訓練された複数の大規模な視覚および言語変換器にわたって誘発されたスパース パターンを包括的に研究します。
私たちは、重要なスパース性の存在を提案します。これは、最小の大きさの重みをワンショットで直接削除する場合、スパース性レベルの上昇に伴ってパフォーマンスが大幅に低下する急激な低下点で定義されます。
スパース性パフォーマンス曲線では、BERT の事前トレーニング中に突然スパース化するという興味深い新たな現象も示します。つまり、BERT は、特定の反復後の事前トレーニングで突然非常にスパースになります。
さらに、私たちの観察は、大量の事前トレーニングデータでトレーニングされた BERT は、比較的少ないパラメータで知識を凝縮する能力が優れている傾向があるという直感に反する発見も示しています。
最後に、本質的なスパース性に対する事前トレーニング損失の影響を調査し、自己教師あり学習 (SSL) 目標が教師あり学習 (SL) よりも強力な創発的スパース化特性を引き起こすことを発見しました。
コードは \url{https://github.com/VITA-Group/essential\_sparsity} で入手できます。

要約(オリジナル)

Large pre-trained transformers are show-stealer in modern-day deep learning, and it becomes crucial to comprehend the parsimonious patterns that exist within them as they grow in scale. With exploding parameter counts, Lottery Ticket Hypothesis (LTH) and its variants, have lost their pragmatism in sparsifying them due to high computation and memory bottleneck of the repetitive train-prune-retrain routine of iterative magnitude pruning (IMP) which worsens with increasing model size. In this paper, we comprehensively study induced sparse patterns across multiple large pre-trained vision and language transformers. We propose the existence of — essential sparsity defined with a sharp dropping point beyond which the performance declines much faster w.r.t the rise of sparsity level, when we directly remove weights with the smallest magnitudes in one-shot. In the sparsity-performance curve We also present an intriguing emerging phenomenon of abrupt sparsification during the pre-training of BERT, i.e., BERT suddenly becomes heavily sparse in pre-training after certain iterations. Moreover, our observations also indicate a counter-intuitive finding that BERT trained with a larger amount of pre-training data tends to have a better ability to condense knowledge in comparatively relatively fewer parameters. Lastly, we investigate the effect of the pre-training loss on essential sparsity and discover that self-supervised learning (SSL) objectives trigger stronger emergent sparsification properties than supervised learning (SL). Our codes are available at \url{https://github.com/VITA-Group/essential\_sparsity}.

arxiv情報

著者 Ajay Jaiswal,Shiwei Liu,Tianlong Chen,Zhangyang Wang
発行日 2023-06-06 15:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク