PENDRAM: Enabling High-Performance and Energy-Efficient Processing of Deep Neural Networks through a Generalized DRAM Data Mapping Policy

要約

ディープ ニューラル ネットワーク (DNN) の代表的なタイプである畳み込みニューラル ネットワーク (CNN) は、機械学習タスクを解決するための最先端のソリューションとして登場しました。
CNN 推論のパフォーマンスとエネルギー効率を向上させるために、専用のハードウェア アクセラレータの使用が普及しています。
ただし、CNN アクセラレータは、オフチップ メモリ (DRAM) のアクセス レイテンシとエネルギーが大きいため、依然としてパフォーマンスとエネルギー効率の課題に直面しています。これは、レイテンシとエネルギーに制約のある組み込みアプリケーションにとって特に重要です。
さらに、DRAM アーキテクチャが異なれば、アクセス レイテンシとエネルギーのプロファイルも異なるため、高性能でエネルギー効率の高い CNN アクセラレータ向けに最適化することが困難になります。
これに対処するために、一般化された DRAM データ マッピング ポリシーを通じて高性能でエネルギー効率の高い CNN アクセラレーションを可能にする新しい設計空間探索手法である PENDRAM を紹介します。
具体的には、さまざまな CNN パーティショニングおよびスケジューリング スキームにわたって、さまざまな DRAM データ マッピング ポリシーと DRAM アーキテクチャが DRAM アクセスのレイテンシとエネルギーに及ぼす影響を調査し、パレート最適な設計の選択肢を特定します。
実験結果は、当社の DRAM データ マッピング ポリシーが、他のマッピング ポリシーよりも CNN アクセラレータでの DRAM アクセスのエネルギー遅延積を最大 96% 改善することを示しています。
このようにして、当社の PENDRAM 手法は、さまざまな組み込み AI アプリケーションに対して、任意の DRAM アーキテクチャ下で高性能でエネルギー効率の高い CNN アクセラレーションを提供します。

要約(オリジナル)

Convolutional Neural Networks (CNNs), a prominent type of Deep Neural Networks (DNNs), have emerged as a state-of-the-art solution for solving machine learning tasks. To improve the performance and energy efficiency of CNN inference, the employment of specialized hardware accelerators is prevalent. However, CNN accelerators still face performance- and energy-efficiency challenges due to high off-chip memory (DRAM) access latency and energy, which are especially crucial for latency- and energy-constrained embedded applications. Moreover, different DRAM architectures have different profiles of access latency and energy, thus making it challenging to optimize them for high performance and energy-efficient CNN accelerators. To address this, we present PENDRAM, a novel design space exploration methodology that enables high-performance and energy-efficient CNN acceleration through a generalized DRAM data mapping policy. Specifically, it explores the impact of different DRAM data mapping policies and DRAM architectures across different CNN partitioning and scheduling schemes on the DRAM access latency and energy, then identifies the pareto-optimal design choices. The experimental results show that our DRAM data mapping policy improves the energy-delay-product of DRAM accesses in the CNN accelerator over other mapping policies by up to 96%. In this manner, our PENDRAM methodology offers high-performance and energy-efficient CNN acceleration under any given DRAM architectures for diverse embedded AI applications.

arxiv情報

著者 Rachmad Vidya Wicaksana Putra,Muhammad Abdullah Hanif,Muhammad Shafique
発行日 2024-08-05 12:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, cs.NE パーマリンク