PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System

要約

大規模なデータセットに対する最新の機械学習 (ML) トレーニングは、非常に時間のかかるワークロードです。
このアルゴリズムは、その有効性、シンプルさ、汎化パフォーマンスにより、最適化アルゴリズムである確率的勾配降下法 (SGD) に依存しています。
SGD に基づく最新の ML トレーニング ワークロードに一般的に使用されるプロセッサ中心のアーキテクチャ (CPU、GPU など) は、大規模なデータセットにアクセスする際のデータの局所性が低いため、プロセッサとメモリ ユニット間のデータ移動がボトルネックになっています。
その結果、プロセッサ中心のアーキテクチャでは、ML トレーニング ワークロードの実行中にパフォーマンスが低下し、エネルギー消費が高くなります。
Processing-In-Memory (PIM) は、計算メカニズムをメモリ内またはメモリの近くに配置することで、データ移動のボトルネックを軽減する有望なソリューションです。
私たちの目標は、データ集約型の ML トレーニング ワークロードを高速化するために、現実世界の PIM システム上で一般的な分散 SGD アルゴリズムの機能を理解することです。
この目的を達成するために、1) いくつかの代表的な集中型並列 SGD アルゴリズムを現実世界の UPMEM PIM システムに実装し、2) 大規模データセットでの ML トレーニング用にこれらのアルゴリズムをパフォーマンス、精度、スケーラビリティの観点から厳密に評価し、3) 比較します。
4) 将来の PIM ハードウェアへの影響について議論し、アルゴリズムとハードウェアの共同設計への移行の必要性を強調します。
私たちの結果は、次の 3 つの主要な発見を示しています。 1) UPMEM PIM システムは、特に操作とデータ型が PIM ハードウェアによってネイティブにサポートされている場合、メモリに依存する多くの ML トレーニング ワークロードにとって、最先端の CPU や GPU に代わる実行可能な代替手段となる可能性があります。
2) PIM に最適な最適化アルゴリズムを慎重に選択することが重要です。3) UPMEM PIM システムは、多くのデータ集約型 ML トレーニング ワークロードのノード数に応じてほぼ線形に拡張できません。
今後の研究を促進するために、すべてのコードをオープンソースにしています。

要約(オリジナル)

Modern Machine Learning (ML) training on large-scale datasets is a very time-consuming workload. It relies on the optimization algorithm Stochastic Gradient Descent (SGD) due to its effectiveness, simplicity, and generalization performance. Processor-centric architectures (e.g., CPUs, GPUs) commonly used for modern ML training workloads based on SGD are bottlenecked by data movement between the processor and memory units due to the poor data locality in accessing large datasets. As a result, processor-centric architectures suffer from low performance and high energy consumption while executing ML training workloads. Processing-In-Memory (PIM) is a promising solution to alleviate the data movement bottleneck by placing the computation mechanisms inside or near memory. Our goal is to understand the capabilities of popular distributed SGD algorithms on real-world PIM systems to accelerate data-intensive ML training workloads. To this end, we 1) implement several representative centralized parallel SGD algorithms on the real-world UPMEM PIM system, 2) rigorously evaluate these algorithms for ML training on large-scale datasets in terms of performance, accuracy, and scalability, 3) compare to conventional CPU and GPU baselines, and 4) discuss implications for future PIM hardware and highlight the need for a shift to an algorithm-hardware codesign. Our results demonstrate three major findings: 1) The UPMEM PIM system can be a viable alternative to state-of-the-art CPUs and GPUs for many memory-bound ML training workloads, especially when operations and datatypes are natively supported by PIM hardware, 2) it is important to carefully choose the optimization algorithms that best fit PIM, and 3) the UPMEM PIM system does not scale approximately linearly with the number of nodes for many data-intensive ML training workloads. We open source all our code to facilitate future research.

arxiv情報

著者 Steve Rhyner,Haocong Luo,Juan Gómez-Luna,Mohammad Sadrosadati,Jiawei Jiang,Ataberk Olgun,Harshita Gupta,Ce Zhang,Onur Mutlu
発行日 2024-09-27 14:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.DC, cs.LG パーマリンク