SPIRT: A Fault-Tolerant and Reliable Peer-to-Peer Serverless ML Training Architecture

要約

サーバーレス コンピューティングの出現により、分散機械学習、特にパラメータ サーバーベースのアーキテクチャにおいて顕著な進歩がもたらされました。
しかし、ピアツーピア (P2P) 分散ネットワーク内でのサーバーレス機能の統合は、ほとんど知られていないままです。
このペーパーでは、フォールトトレラントで信頼性が高く安全なサーバーレス P2P ML トレーニング アーキテクチャである SPIRT を紹介します。
この既存のギャップを埋めるために設計されました。
SPIRT は、P2P システムに本来備わっている堅牢性と信頼性を活用して、データベース内操作に RedisAI を採用し、さまざまなモデルやバッチ サイズにわたるモデルの更新と勾配平均に必要な時間を 82% 削減します。
このアーキテクチャは、ピアの障害に対する回復力を示し、新しいピアの統合を適切に管理することで、そのフォールト トレラント特性とスケーラビリティを強調します。
さらに、SPIRT はピア間の安全な通信を保証し、分散機械学習タスクの信頼性を高めます。
ビザンチン攻撃に直面しても、システムの堅牢な集計アルゴリズムにより高レベルの精度が維持されます。
これらの発見は、P2P 分散機械学習におけるサーバーレス アーキテクチャの有望な可能性を明らかにし、より効率的でスケーラブルで復元力のあるアプリケーションの開発に向けて大きな進歩をもたらします。

要約(オリジナル)

The advent of serverless computing has ushered in notable advancements in distributed machine learning, particularly within parameter server-based architectures. Yet, the integration of serverless features within peer-to-peer (P2P) distributed networks remains largely uncharted. In this paper, we introduce SPIRT, a fault-tolerant, reliable, and secure serverless P2P ML training architecture. designed to bridge this existing gap. Capitalizing on the inherent robustness and reliability innate to P2P systems, SPIRT employs RedisAI for in-database operations, leading to an 82\% reduction in the time required for model updates and gradient averaging across a variety of models and batch sizes. This architecture showcases resilience against peer failures and adeptly manages the integration of new peers, thereby highlighting its fault-tolerant characteristics and scalability. Furthermore, SPIRT ensures secure communication between peers, enhancing the reliability of distributed machine learning tasks. Even in the face of Byzantine attacks, the system’s robust aggregation algorithms maintain high levels of accuracy. These findings illuminate the promising potential of serverless architectures in P2P distributed machine learning, offering a significant stride towards the development of more efficient, scalable, and resilient applications.

arxiv情報

著者 Amine Barrak,Mayssa Jaziri,Ranim Trabelsi,Fehmi Jaafar,Fabio Petrillo
発行日 2023-09-25 14:01:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク