Architecting Peer-to-Peer Serverless Distributed Machine Learning Training for Improved Fault Tolerance

要約

分散型機械学習とは、ノードと呼ばれる複数のコンピューターまたはデバイスでモデルをトレーニングする方法を指します。
さらに、サーバーレス コンピューティングは、関数を計算単位として使用するクラウド コンピューティングの新しいパラダイムです。
サーバーレス コンピューティングは、自動化されたリソース スケーリング、手動介入の削減、およびコスト削減を可能にすることで、分散学習システムに効果的です。
ワークロードを分散することで、分散型機械学習はトレーニング プロセスを高速化し、より複雑なモデルをトレーニングできるようにします。
分散機械学習のいくつかのトポロジーが確立されています (集中型、パラメーター サーバー、ピアツーピア)。
ただし、パラメーター サーバー アーキテクチャには、単一障害点や複雑な回復プロセスなど、フォールト トレランスの点で制限がある場合があります。
さらに、ピア ツー ピア (P2P) アーキテクチャで機械学習をトレーニングすると、単一障害点がなくなるため、フォールト トレランスの点でメリットがあります。
P2P アーキテクチャでは、各ノードまたはワーカーがサーバーとクライアントの両方として機能できるため、より分散化された意思決定が可能になり、中央コーディネーターが不要になります。
このポジション ペーパーでは、分散型機械学習トレーニングにおけるサーバーレス コンピューティングの使用を調査し、P2P アーキテクチャのパフォーマンスをパラメーター サーバー アーキテクチャと比較して、コスト削減とフォールト トレランスに焦点を当てることを提案します。

要約(オリジナル)

Distributed Machine Learning refers to the practice of training a model on multiple computers or devices that can be called nodes. Additionally, serverless computing is a new paradigm for cloud computing that uses functions as a computational unit. Serverless computing can be effective for distributed learning systems by enabling automated resource scaling, less manual intervention, and cost reduction. By distributing the workload, distributed machine learning can speed up the training process and allow more complex models to be trained. Several topologies of distributed machine learning have been established (centralized, parameter server, peer-to-peer). However, the parameter server architecture may have limitations in terms of fault tolerance, including a single point of failure and complex recovery processes. Moreover, training machine learning in a peer-to-peer (P2P) architecture can offer benefits in terms of fault tolerance by eliminating the single point of failure. In a P2P architecture, each node or worker can act as both a server and a client, which allows for more decentralized decision making and eliminates the need for a central coordinator. In this position paper, we propose exploring the use of serverless computing in distributed machine learning training and comparing the performance of P2P architecture with the parameter server architecture, focusing on cost reduction and fault tolerance.

arxiv情報

著者 Amine Barrak,Fabio Petrillo,Fehmi Jaafar
発行日 2023-02-27 17:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク