Analysis of Distributed Optimization Algorithms on a Real Processing-In-Memory System

要約

大規模なデータセットでの機械学習 (ML) トレーニングは、非常に高価で時間のかかるワークロードです。
最新の ML トレーニング ワークロードに一般的に使用されるプロセッサ中心のアーキテクチャ (CPU、GPU など) は、データ移動のボトルネック、つまりトレーニング データセットへの繰り返しアクセスによって制限されます。
その結果、プロセッサ中心のシステムはパフォーマンスの低下と高いエネルギー消費に悩まされます。
Processing-In-Memory (PIM) は、計算メカニズムをメモリ内またはメモリの近くに配置することで、データ移動のボトルネックを軽減する有望なソリューションです。
私たちの目標は、現実世界の PIM アーキテクチャにおける一般的な分散最適化アルゴリズムの機能と特性を理解し、データ集約型の ML トレーニング ワークロードを高速化することです。
この目的を達成するために、私たちは 1) UPMEM の実世界の汎用 PIM システムにいくつかの代表的な集中型分散最適化アルゴリズムを実装し、2) 大規模なデータセットでの ML トレーニング用のこれらのアルゴリズムをパフォーマンス、精度、スケーラビリティの観点から厳密に評価します。
) 従来の CPU および GPU のベースラインと比較し、4) 将来の PIM ハードウェアへの影響と、分散型分散最適化アルゴリズムに対応するためにアルゴリズムとハードウェアの共同設計の観点に移行する必要性について説明します。
私たちの結果は、次の 3 つの主要な発見を示しています。 1) 演算とデータ型が PIM ハードウェアによってネイティブにサポートされている場合、最新の汎用 PIM アーキテクチャは、多くのメモリに依存する ML トレーニング ワークロードに対して、最先端の CPU や GPU に代わる実行可能な代替手段となる可能性があります。
、2) PIM に最適な最適化アルゴリズムを慎重に選択することの重要性、3) 一般的な考えに反して、現代の PIM アーキテクチャは、多くのデータ集約型 ML トレーニング ワークロードのノード数に応じてほぼ線形に拡張できません。
将来の研究を促進するために、私たちは完全なコードベースをオープンソース化することを目指しています。

要約(オリジナル)

Machine Learning (ML) training on large-scale datasets is a very expensive and time-consuming workload. Processor-centric architectures (e.g., CPU, GPU) commonly used for modern ML training workloads are limited by the data movement bottleneck, i.e., due to repeatedly accessing the training dataset. As a result, processor-centric systems suffer from performance degradation and high energy consumption. Processing-In-Memory (PIM) is a promising solution to alleviate the data movement bottleneck by placing the computation mechanisms inside or near memory. Our goal is to understand the capabilities and characteristics of popular distributed optimization algorithms on real-world PIM architectures to accelerate data-intensive ML training workloads. To this end, we 1) implement several representative centralized distributed optimization algorithms on UPMEM’s real-world general-purpose PIM system, 2) rigorously evaluate these algorithms for ML training on large-scale datasets in terms of performance, accuracy, and scalability, 3) compare to conventional CPU and GPU baselines, and 4) discuss implications for future PIM hardware and the need to shift to an algorithm-hardware codesign perspective to accommodate decentralized distributed optimization algorithms. Our results demonstrate three major findings: 1) Modern general-purpose PIM architectures can be a viable alternative to state-of-the-art CPUs and GPUs for many memory-bound ML training workloads, when operations and datatypes are natively supported by PIM hardware, 2) the importance of carefully choosing the optimization algorithm that best fit PIM, and 3) contrary to popular belief, contemporary PIM architectures do not scale approximately linearly with the number of nodes for many data-intensive ML training workloads. To facilitate future research, we aim to open-source our complete codebase.

arxiv情報

著者 Steve Rhyner,Haocong Luo,Juan Gómez-Luna,Mohammad Sadrosadati,Jiawei Jiang,Ataberk Olgun,Harshita Gupta,Ce Zhang,Onur Mutlu
発行日 2024-04-10 17:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.DC, cs.LG パーマリンク