PiPar: Pipeline Parallelism for Collaborative Machine Learning

要約

フェデレーテッド ラーニングなどの協調機械学習 (CML) 手法は、複数のモバイル デバイスとサーバーにわたってディープ ラーニング モデルをトレーニングするために提案されています。
CML 技術は、デバイスからの生データがサーバーと共有されるのではなく、各デバイス上でトレーニングされたローカル モデルであるため、プライバシーが保護されます。
ただし、CML トレーニングはリソースの使用率が低いため非効率的です。
リソース使用率が低い主な原因として、逐次的な計算と通信によるサーバーとデバイス上のアイドル状態のリソースが特定されます。
CML 技術のパイプライン並列処理を活用する新しいフレームワーク PiPar が開発され、リソース使用率が大幅に向上します。
新しいトレーニング パイプラインは、さまざまなハードウェア リソースでの計算とさまざまな帯域幅リソースでの通信を並列化するように設計されており、これにより CML でのトレーニング プロセスが高速化されます。
パイプラインを最適化し、利用可能なリソースを最大限に活用するために、オーバーヘッドの低い自動パラメーター選択方法が提案されています。
実験結果は、PiPar の基礎となるアプローチの有効性を確認し、フェデレーテッド ラーニングと比較した場合、(i) サーバーのアイドル時間を最大 64.1 分の 1 に削減でき、(ii) 全体のトレーニング時間を高速化できることを強調しています。
6 つの大小の一般的なディープ ニューラル ネットワークと 4 つのデータセットのコレクションに対して、精度を犠牲にすることなく、さまざまなネットワーク条件下で最大 34.6 倍の性能向上を実現します。
また、PiPar は、差分プライバシー方式を組み込み、異種デバイスや帯域幅が変化する環境で動作する場合にパフォーマンス上の利点が得られることも実験的に実証されています。

要約(オリジナル)

Collaborative machine learning (CML) techniques, such as federated learning, have been proposed to train deep learning models across multiple mobile devices and a server. CML techniques are privacy-preserving as a local model that is trained on each device instead of the raw data from the device is shared with the server. However, CML training is inefficient due to low resource utilization. We identify idling resources on the server and devices due to sequential computation and communication as the principal cause of low resource utilization. A novel framework PiPar that leverages pipeline parallelism for CML techniques is developed to substantially improve resource utilization. A new training pipeline is designed to parallelize the computations on different hardware resources and communication on different bandwidth resources, thereby accelerating the training process in CML. A low overhead automated parameter selection method is proposed to optimize the pipeline, maximizing the utilization of available resources. The experimental results confirm the validity of the underlying approach of PiPar and highlight that when compared to federated learning: (i) the idle time of the server can be reduced by up to 64.1x, and (ii) the overall training time can be accelerated by up to 34.6x under varying network conditions for a collection of six small and large popular deep neural networks and four datasets without sacrificing accuracy. It is also experimentally demonstrated that PiPar achieves performance benefits when incorporating differential privacy methods and operating in environments with heterogeneous devices and changing bandwidths.

arxiv情報

著者 Zihan Zhang,Philip Rodgers,Peter Kilpatrick,Ivor Spence,Blesson Varghese
発行日 2024-06-25 16:17:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク