S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training

要約

ディープ ニューラル ネットワーク (DNN) のトレーニングにはコストがかかります。
幸いなことに、Nvidia Ampere および Hopper GPU は、2:4 スパース性を実装することにより、高密度の同等の GPU の 2 倍の速度で行列の乗算を高速化できます。
ただし、以前の STE ベースの 2:4 事前トレーニング方法 (ハードしきい値を使用した STE、SR-STE など) は、不連続な枝刈り機能のため、最適化が困難でした。
この研究では、従来の N:M スパース トレーニングのボトルネックを包括的に分析し、不連続性に伴う 3 つの欠点、つまり不正確な下降方向、下降量の予測不能、およびスパース マスクの振動を認識しました。
これを考慮して、我々は S-STE を提案します。これは、重みを 2:4 スパースになるように継続的に投影することと、テンソルごとの固定スケーリング係数を使用してスパースな重みを再スケーリングすることの 2 つの部分を含む、シンプルでありながら強力な 2:4 トレーニング方法です。
さらに、活性化勾配の最小分散不偏推定とプロセス全体のFP8量子化を採用しています。
結果は、私たちの方法が以前の 2:4 事前トレーニング レシピを上回り、完全なパラメーター モデルでも同等であることを示しています。
私たちのツールキットは https://github.com/huyz2023/2by4-pretrain で入手できます。

要約(オリジナル)

Training deep neural networks (DNNs) is costly. Fortunately, Nvidia Ampere and Hopper GPUs can accelerate matrix multiplications twice as fast as a dense equivalent by implementing 2:4 sparsity. However, previous STE-based 2:4 pre-training methods (e.g. STE with hard-thresholding, SR-STE) suffer from optimization difficulties because of discontinuous pruning function. In this study, we comprehensively analyse the bottleneck of traditional N:M sparse training and recognize three drawbacks with discontinuity: incorrect descending direction, inability to predict the amount of descent and sparse mask oscillation. In light of this, we propose S-STE, a simple yet powerful 2:4 training method that contains two parts: to continuously project weights to be 2:4 sparse, and to rescale sparse weights with a per-tensor fixed scaling factor. Besides, we adopt minimum-variance unbiased estimation for activation gradient and FP8 quantization for whole process. Results show that our method surpasses previous 2:4 pre-training recipes and is comparable even with full parameter models. Our toolkit is available at https://github.com/huyz2023/2by4-pretrain.

arxiv情報

著者 Yuezhou Hu,Jun Zhu,Jianfei Chen
発行日 2024-12-27 09:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク