TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks — Part I: Dataflow and Analytical Modelling

要約

最先端のAIモデルの計算の複雑さとデータ量の増大に対応するため、新しいコンピューティング・パラダイムが提案されている。これらのパラダイムは、処理コアとメモリ間のデータ移動にかかるエネルギーコストに関連するフォン・ノイマンのボトルネックを緩和することで、高いエネルギー効率を達成することを目的としている。畳み込みニューラルネットワーク(CNN)は、膨大なデータを管理しなければならないため、このボトルネックの影響を特に受けやすい。シストリック・アレイ(SA)は、プロセッシング・エレメント(PE)のアレイによる高いデータ利用により、データ伝送コストを軽減する有望なアーキテクチャである。これらのPEは、特定のデータフロー(ウェイト定常や行定常など)に基づいてローカルにデータを継続的に交換・処理するため、メインメモリへのメモリアクセス回数を減らすことができる。ハードウェア的に特化されたSAは、行列の乗算から多次元の畳み込みまで、さまざまな作業負荷に対応することができる。本論文では、三角入力運動に基づき、CNNコンピューティングと互換性のあるSA用の新しいデータフローであるTrimを提案する。ウェイト定常や行定常のような最新のSAデータフローと比較すると、Trimが提供する高いデータ利用率は、メモリアクセスを10分の1以下に抑えることを保証する。さらに、PEが乗算と積算を連続的にオーバーラップさせることを考慮すると、Trimは高いスループット(行定常よりも最大81.8%高い)を達成し、限られた数のレジスタしか必要としない(行定常よりも最大15.6倍少ない)。

要約(オリジナル)

In order to follow the ever-growing computational complexity and data intensity of state-of-the-art AI models, new computing paradigms are being proposed. These paradigms aim at achieving high energy efficiency, by mitigating the Von Neumann bottleneck that relates to the energy cost of moving data between the processing cores and the memory. Convolutional Neural Networks (CNNs) are particularly susceptible to this bottleneck, given the massive data they have to manage. Systolic Arrays (SAs) are promising architectures to mitigate the data transmission cost, thanks to high data utilization carried out by an array of Processing Elements (PEs). These PEs continuously exchange and process data locally based on specific dataflows (like weight stationary and row stationary), in turn reducing the number of memory accesses to the main memory. The hardware specialization of SAs can meet different workloads, ranging from matrix multiplications to multi-dimensional convolutions. In this paper, we propose TrIM: a novel dataflow for SAs based on a Triangular Input Movement and compatible with CNN computing. When compared to state-of-the-art SA dataflows, like weight stationary and row stationary, the high data utilization offered by TrIM guarantees ~10x less memory access. Furthermore, considering that PEs continuously overlap multiplications and accumulations, TrIM achieves high throughput (up to 81.8% higher than row stationary), other than requiring a limited number of registers (up to 15.6x fewer registers than row stationary).

arxiv情報

著者 Cristian Sestito,Shady Agwa,Themis Prodromakis
発行日 2024-08-02 13:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.AR パーマリンク