Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators

要約

現在、ますます大規模なディープ ニューラル ネットワーク (DNN) が開発、トレーニング、利用されています。
これらのネットワークは大量の計算リソースを必要とし、高度なデバイスと制限されたデバイスの両方に負担をかけます。
私たちの解決策は、ハードウェアに優しい構造化されたスパース性である {\em ウェイト ブロック スパース性} を実装することです。
畳み込みの特定のセクションと、事前トレーニングされた DNN モデルの全結合層パラメーターをゼロにすることで、DNN の推論プロセスを効率的に高速化できます。
これにより、メモリ使用量が小さくなり、通信が高速になり、操作が少なくなります。
私たちの研究は、畳み込みと行列乗算の重みのトレーニングを可能にし、単一の GPU 上で 8×8 ブロックのスパース性を妥当な時間内に活用できる垂直システムを提示します。
コンパイラーはこのスパース性を認識し、データの圧縮とスレッドへの計算の分割の両方に使用します。
このようなブロックは、空間的および時間的局所性の両方を最大限に活用し、高速なベクトル演算とメモリの再利用への道を開きます。
このシステムを Resnet50 モデルで使用することにより、精度の低下を最小限に抑えながら重量を半分に減らすことができ、推論速度が 2 倍速くなりました。
Resnet50、Inception V3、および VGG16 を使用した AIE2 コンフィギュレーション セット (AMD Versal FPGA) の正確かつ完全なコード生成を使用したパフォーマンス推定を提示し、機械学習アプリケーションのコンパイルと実行に必要なハードウェア オーバーレイ設計とソフトウェア スタック間の相乗効果を実証します。

要約(オリジナル)

Nowadays, increasingly larger Deep Neural Networks (DNNs) are being developed, trained, and utilized. These networks require significant computational resources, putting a strain on both advanced and limited devices. Our solution is to implement {\em weight block sparsity}, which is a structured sparsity that is friendly to hardware. By zeroing certain sections of the convolution and fully connected layers parameters of pre-trained DNN models, we can efficiently speed up the DNN’s inference process. This results in a smaller memory footprint, faster communication, and fewer operations. Our work presents a vertical system that allows for the training of convolution and matrix multiplication weights to exploit 8×8 block sparsity on a single GPU within a reasonable amount of time. Compilers recognize this sparsity and use it for both data compaction and computation splitting into threads. Blocks like these take full advantage of both spatial and temporal locality, paving the way for fast vector operations and memory reuse. By using this system on a Resnet50 model, we were able to reduce the weight by half with minimal accuracy loss, resulting in a two-times faster inference speed. We will present performance estimates using accurate and complete code generation for AIE2 configuration sets (AMD Versal FPGAs) with Resnet50, Inception V3, and VGG16 to demonstrate the necessary synergy between hardware overlay designs and software stacks for compiling and executing machine learning applications.

arxiv情報

著者 Paolo D’Alberto,Taehee Jeong,Akshai Jain,Shreyas Manjunath,Mrinal Sarmah,Samuel Hsu Yaswanth Raparti,Nitesh Pipralia
発行日 2024-07-12 17:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.5, cs.AR, cs.CL, cs.LG パーマリンク