Sparse maximal update parameterization: A holistic approach to sparse training dynamics

要約

いくつかの課題により、疎ニューラル ネットワークが密モデルと競合することが困難になっています。
まず、重みの大部分をゼロに設定すると、前方信号と勾配信号の伝播が損なわれます。
第 2 に、スパース スタディでは、多くの場合、複数のスパース レベルをテストしながら、新しいハイパーパラメータ (HP) を導入する必要があるため、法外なチューニング コストがかかります。
実際、標準的な方法では、もともと高密度モデル用に作成された学習 HP を再利用します。
残念ながら、疎なネットワークと密なネットワークは同じ最適な HP を共有しないことがわかります。
安定したダイナミクスと効果的なトレーニング レシピがなければ、スパース性を大規模にテストするにはコストがかかります。これは、高密度ネットワークを超え、ハードウェアでのスパース性アクセラレーションのビジネス ケースを作成するための鍵となります。
これらの課題に取り組むには総合的なアプローチが必要であり、そのようなアプローチの 1 つとして S$\mu$Par を提案します。
S$\mu$Par は、スパース性レベルに関係なく、アクティベーション、勾配、および重みの更新がすべてスケールされることを保証します。
さらに、HP を再パラメータ化することで、S$\mu$Par により、スパース性レベルとモデル幅の両方を変更しても、同じ HP 値を最適化することができます。
HP は小規模の高密度ネットワーク上で調整して大規模な疎モデルに転送できるため、調整コストが大幅に削減されます。
大規模な言語モデリングでは、S$\mu$Par トレーニングにより、密なモデルの標準パラメーター化を使用する一般的なアプローチよりも損失が最大 8.2% 改善されます。

要約(オリジナル)

Several challenges make it difficult for sparse neural networks to compete with dense models. First, setting a large fraction of weights to zero impairs forward and gradient signal propagation. Second, sparse studies often need to test multiple sparsity levels, while also introducing new hyperparameters (HPs), leading to prohibitive tuning costs. Indeed, the standard practice is to re-use the learning HPs originally crafted for dense models. Unfortunately, we show sparse and dense networks do not share the same optimal HPs. Without stable dynamics and effective training recipes, it is costly to test sparsity at scale, which is key to surpassing dense networks and making the business case for sparsity acceleration in hardware. A holistic approach is needed to tackle these challenges and we propose S$\mu$Par as one such approach. S$\mu$Par ensures activations, gradients, and weight updates all scale independently of sparsity level. Further, by reparameterizing the HPs, S$\mu$Par enables the same HP values to be optimal as we vary both sparsity level and model width. HPs can be tuned on small dense networks and transferred to large sparse models, greatly reducing tuning costs. On large-scale language modeling, S$\mu$Par training improves loss by up to 8.2% over the common approach of using the dense model standard parameterization.

arxiv情報

著者 Nolan Dey,Shane Bergsma,Joel Hestness
発行日 2024-05-24 17:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク