要約
機械学習 (ML) アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニング データセットに繰り返しアクセスするため、メモリに制約されることがよくあります。
その結果、プロセッサ中心のシステム (CPU、GPU など) は、メモリ ユニットと処理ユニット間のデータ移動にコストがかかり、大量のエネルギーと実行サイクルを消費します。
メモリ中心のコンピューティング システム、つまりメモリ内処理 (PIM) 機能を備えたシステムは、このデータ移動のボトルネックを軽減できます。
私たちの目標は、ML トレーニングを加速する最新の汎用 PIM アーキテクチャの可能性を理解することです。
そのために、(1) いくつかの代表的な古典的な ML アルゴリズム (つまり、線形回帰、ロジスティック回帰、デシジョン ツリー、K 平均法クラスタリング) を現実世界の汎用 PIM アーキテクチャに実装し、(2) それらを厳密に評価して特徴付けます。
精度、パフォーマンス、スケーリングの点で、(3) CPU および GPU 上の対応する実装と比較します。
2500 を超える PIM コアを備えた実際のメモリ中心のコンピューティング システムでの評価では、必要な操作とデータ型が PIM ハードウェアでネイティブにサポートされている場合、汎用 PIM アーキテクチャがメモリに依存する ML ワークロードを大幅に高速化できることがわかりました。
たとえば、デシジョン ツリーの PIM 実装は、8 コア Intel Xeon 上の最先端の CPU バージョンよりも $27\times$ 高速で、最先端の GPU よりも $1.34\times$ 高速です。
NVIDIA A100 上のバージョン。
PIM での K-Means クラスタリングは、最先端の CPU バージョンと GPU バージョンに比べて、それぞれ $2.8\time$ と $3.2\time$ です。
私たちの知る限り、私たちの研究は、現実世界の PIM アーキテクチャ上で ML トレーニングを評価する最初の研究です。
最後に、ML ワークロードのユーザー、PIM アーキテクチャのプログラマー、将来のメモリ中心のコンピューティング システムのハードウェア設計者とアーキテクトにインスピレーションを与えることができる重要な観察、要点、推奨事項で締めくくります。
要約(オリジナル)
Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
arxiv情報
著者 | Juan Gómez-Luna,Yuxin Guo,Sylvan Brocard,Julien Legriel,Remy Cimadomo,Geraldo F. Oliveira,Gagandeep Singh,Onur Mutlu |
発行日 | 2023-05-19 15:08:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google