要約
スパース トレーニングは、高精度を維持しながら DNN の計算コストを削減する有望な手法の 1 つです。
特に、連続する M 要素のうち N 個だけが非ゼロになり得る N:M 細粒構造スパーシティは、そのハードウェアに優しいパターンと高いスパース比を達成できる機能により注目を集めています。
ただし、N:M スパース DNN トレーニングを高速化する可能性は十分に活用されておらず、N:M スパース トレーニングをサポートする効率的なハードウェアが不足しています。
これらの課題に取り組むために、この論文では、アルゴリズム、アーキテクチャ、およびデータフローの協調設計を使用した、N:M スパース DNN の計算効率の高いトレーニング スキームを紹介します。
アルゴリズム レベルでは、BDWP と呼ばれる双方向重み枝刈り手法が提案されており、DNN トレーニングの前方パスと後方パスの両方で重みの N:M スパース性を活用することができ、モデルの精度を維持しながら計算コストを大幅に削減できます。
アーキテクチャ レベルでは、DNN トレーニング用のスパース アクセラレータ、つまり SAT が開発され、通常の高密度操作と計算効率の高い N:M スパース操作の両方を適切にサポートします。
データフロー レベルでは、SAT の計算効率を高めるために、インターリーブ マッピング、N:M スパース重みの事前生成、オフライン スケジューリングに至る複数の最適化手法が提案されています。
最後に、さまざまな DNN モデルとデータセットを使用して、ザイリンクス VCU1525 FPGA カードでトレーニング スキームの有効性を評価します。
実験結果は、2:8 スパース比の下で BDWP スパース トレーニング法を使用した SAT アクセラレータが、平均 0.56% という無視できる精度の低下を伴いながら、デンス トレーニングを使用した場合よりも平均 1.75 倍の高速化を達成することを示しています。
さらに、私たちが提案したトレーニング スキームは、以前の FPGA ベースのアクセラレータと比較して、トレーニング スループットを 2.97 ~ 25.22 倍、エネルギー効率を 1.36 ~ 3.58 倍に大幅に向上させます。
要約(オリジナル)
Sparse training is one of the promising techniques to reduce the computational cost of DNNs while retaining high accuracy. In particular, N:M fine-grained structured sparsity, where only N out of consecutive M elements can be nonzero, has attracted attention due to its hardware-friendly pattern and capability of achieving a high sparse ratio. However, the potential to accelerate N:M sparse DNN training has not been fully exploited, and there is a lack of efficient hardware supporting N:M sparse training. To tackle these challenges, this paper presents a computation-efficient training scheme for N:M sparse DNNs using algorithm, architecture, and dataflow co-design. At the algorithm level, a bidirectional weight pruning method, dubbed BDWP, is proposed to leverage the N:M sparsity of weights during both forward and backward passes of DNN training, which can significantly reduce the computational cost while maintaining model accuracy. At the architecture level, a sparse accelerator for DNN training, namely SAT, is developed to neatly support both the regular dense operations and the computation-efficient N:M sparse operations. At the dataflow level, multiple optimization methods ranging from interleave mapping, pre-generation of N:M sparse weights, and offline scheduling, are proposed to boost the computational efficiency of SAT. Finally, the effectiveness of our training scheme is evaluated on a Xilinx VCU1525 FPGA card using various DNN models and datasets. Experimental results show the SAT accelerator with the BDWP sparse training method under 2:8 sparse ratio achieves an average speedup of 1.75x over that with the dense training, accompanied by a negligible accuracy loss of 0.56% on average. Furthermore, our proposed training scheme significantly improves the training throughput by 2.97~25.22x and the energy efficiency by 1.36~3.58x over prior FPGA-based accelerators.
arxiv情報
著者 | Chao Fang,Wei Sun,Aojun Zhou,Zhongfeng Wang |
発行日 | 2023-09-22 17:26:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google