HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments

要約

ディープ ニューラル ネットワーク (DNN) は、多くのレイヤーと多数のパラメーターを活用して、優れたパフォーマンスを実現します。
DNN モデルのトレーニング プロセスは一般に、多くのスパースな特徴を含む大規模な入力データを処理するため、高い入出力 (IO) コストが発生し、一部のレイヤーはコンピューティング集約的です。
トレーニング プロセスでは通常、分散コンピューティング リソースを利用してトレーニング時間を短縮します。
さらに、複数の種類の CPU や GPU などの異種コンピューティング リソースを分散トレーニング プロセスに利用できます。
したがって、さまざまなコンピューティング リソースに対する複数のレイヤーのスケジューリングは、トレーニング プロセスにとって重要です。
異種コンピューティングリソースを使用して DNN モデルを効率的にトレーニングするために、分散アーキテクチャと強化学習 (RL) ベースのスケジューリング方法で構成される分散フレームワーク、つまり Paddle-Heterogeneous Parameter Server (Paddle-HeterPS) を提案します。
Paddle-HeterPS の利点は、既存のフレームワークと比較して 3 倍あります。
まず、Paddle-HeterPS により、異種コンピューティング リソースを使用した多様なワークロードの効率的なトレーニング プロセスが可能になります。
2 番目に、Paddle-HeterPS は、RL ベースの方法を利用して、各層のワークロードを適切なコンピューティング リソースに効率的にスケジュールし、スループットの制約を満たしながらコストを最小限に抑えます。
第三に、Paddle-HeterPS は、分散コンピューティング リソース間のデータ ストレージとデータ通信を管理します。
私たちは広範な実験を実施し、Paddle-HeterPS がスループット (14.5 倍高い) と金銭的コスト (312.3% 小さい) の点で最先端のアプローチよりも大幅に優れていることを示しました。
フレームワークのコードは、https://github.com/PaddlePaddle/Paddle で公開されています。

要約(オリジナル)

Deep neural networks (DNNs) exploit many layers and a large number of parameters to achieve excellent performance. The training process of DNN models generally handles large-scale input data with many sparse features, which incurs high Input/Output (IO) cost, while some layers are compute-intensive. The training process generally exploits distributed computing resources to reduce training time. In addition, heterogeneous computing resources, e.g., CPUs, GPUs of multiple types, are available for the distributed training process. Thus, the scheduling of multiple layers to diverse computing resources is critical for the training process. To efficiently train a DNN model using the heterogeneous computing resources, we propose a distributed framework, i.e., Paddle-Heterogeneous Parameter Server (Paddle-HeterPS), composed of a distributed architecture and a Reinforcement Learning (RL)-based scheduling method. The advantages of Paddle-HeterPS are three-fold compared with existing frameworks. First, Paddle-HeterPS enables efficient training process of diverse workloads with heterogeneous computing resources. Second, Paddle-HeterPS exploits an RL-based method to efficiently schedule the workload of each layer to appropriate computing resources to minimize the cost while satisfying throughput constraints. Third, Paddle-HeterPS manages data storage and data communication among distributed computing resources. We carry out extensive experiments to show that Paddle-HeterPS significantly outperforms state-of-the-art approaches in terms of throughput (14.5 times higher) and monetary cost (312.3% smaller). The codes of the framework are publicly available at: https://github.com/PaddlePaddle/Paddle.

arxiv情報

著者 Ji Liu,Zhihua Wu,Dianhai Yu,Yanjun Ma,Danlei Feng,Minxu Zhang,Xinxuan Wu,Xuefeng Yao,Dejing Dou
発行日 2023-06-07 13:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.SY, eess.SY パーマリンク