An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System

要約

タイトル:現実のピモリ(Processing-In-Memory)システムでの機械学習トレーニングの実験的評価

要約:
– 機械学習アルゴリズムのトレーニングは計算量が多く、大量のデータセットに反復的にアクセスするため、メモリーバウンドが頻繁に発生する。
– プロセッサ中心のシステム(例えばCPUやGPU)は、メモリユニットと処理ユニット間のデータ移動によって高コストになり、大量のエネルギーと実行サイクルを消費する。
– ピモリ機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動のボトルネックを緩和できる。
– 本研究の目的は、現代の汎用性の高いPIMアーキテクチャがMLトレーニングを加速する可能性を理解することである。
– 具体的には、代表的なクラシックなMLアルゴリズム(線形回帰、ロジスティック回帰、決定木、K平均クラスタリング)を現実の汎用性の高いPIMアーキテクチャに実装し、精度、パフォーマンス、スケーリングについて厳密に評価し、CPUやGPU上の実装と比較する。
– 2500以上のPIMコアを持つ実際のメモリ中心コンピューティングシステムでの評価では、PIMハードウェアで必要な操作とデータタイプがネイティブにサポートされている場合、汎用性の高いPIMアーキテクチャがメモリーバウンドのMLワークロードを大幅に加速できることがわかった。
– 例えば、PIMによる決定木の実装は、8コアのIntel Xeon上の最新のCPUバージョンに比べて27倍高速であり、NVIDIA A100上の最新のGPUバージョンに比べて1.34倍高速である。
– PIM上のK平均クラスタリングの実装は、最新のCPUバージョンに比べて2.8倍、最新のGPUバージョンに比べて3.2倍高速である。
– 本研究は、実世界のPIMアーキテクチャでMLトレーニングを評価した最初のものである。研究の主要な結論、洞察、教訓、アドバイスは、MLワークロードのユーザー、PIMアーキテクチャのプログラマー、そして将来のメモリ中心コンピューティングシステムのハードウェア設計者やアーキテクトにインスピレーションを与えることができる。

要約(オリジナル)

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.

arxiv情報

著者 Juan Gómez-Luna,Yuxin Guo,Sylvan Brocard,Julien Legriel,Remy Cimadomo,Geraldo F. Oliveira,Gagandeep Singh,Onur Mutlu
発行日 2023-04-23 21:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.AR, cs.DC, cs.LG パーマリンク