VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile Acceleration on CPUs

要約

CPU でのディープラーニング (DL) アクセラレーションのサポートは、最近多くの注目を集めており、いくつかの企業 (Arm、Intel、IBM) が、GEMM 命令を介してアクセスできる特殊なマトリックス エンジンを備えた製品を発表しています。
CPU は広く普及しており、エッジ/HPC/クラウド プラットフォームで実行される DL ワークロード全体でさまざまな要件を処理する必要があります。
したがって、DL ワークロードはスパース性を採用してモデルの計算とメモリ サイズを削減するため、CPU がスパース性のサポートを追加して、高密度マトリックス エンジンの十分な活用とキャッシュとレジスタの非効率的な使用を回避することも不可欠です。
この作業は、CPU の柔軟な構造化スパース性をサポートするために高密度マトリックス エンジンを介した一連の ISA およびマイクロアーキテクチャ拡張である VEGETA を提示し、さまざまな程度のスパース性を持つ多様な DL モデルのプログラム可能なサポートを可能にします。
CPU の最先端 (SOTA) 高密度マトリックス エンジンと比較して、VEGETA エンジンは、4:4 (高密度)、2:4 の実行時に 1.09x、2.20x、3.74x、および 3.28x のスピードアップを提供します。
、1:4、および非構造化 (95%) スパース DNN レイヤー。

要約(オリジナル)

Deep Learning (DL) acceleration support in CPUs has recently gained a lot of traction, with several companies (Arm, Intel, IBM) announcing products with specialized matrix engines accessible via GEMM instructions. CPUs are pervasive and need to handle diverse requirements across DL workloads running in edge/HPC/cloud platforms. Therefore, as DL workloads embrace sparsity to reduce the computations and memory size of models, it is also imperative for CPUs to add support for sparsity to avoid under-utilization of the dense matrix engine and inefficient usage of the caches and registers. This work presents VEGETA, a set of ISA and microarchitecture extensions over dense matrix engines to support flexible structured sparsity for CPUs, enabling programmable support for diverse DL models with varying degrees of sparsity. Compared to the state-of-the-art (SOTA) dense matrix engine in CPUs, a VEGETA engine provides 1.09x, 2.20x, 3.74x, and 3.28x speed-ups when running 4:4 (dense), 2:4, 1:4, and unstructured (95%) sparse DNN layers.

arxiv情報

著者 Geonhwa Jeong,Sana Damani,Abhimanyu Rajeshkumar Bambhaniya,Eric Qin,Christopher J. Hughes,Sreenivas Subramoney,Hyesoon Kim,Tushar Krishna
発行日 2023-02-23 18:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG パーマリンク