私たちは、大規模な並列化と異種コンピューティング リソースの中で効率を向上させることを目的として、非同期分散機械学習システムにおけるビザンチン堅牢トレーニングの課題に取り組みます。
これらの問題に取り組むために、新しい重み付けされた堅牢な集約フレームワークを導入することで、Byzantine フレームワークを非同期ダイナミクスに適応させます。
私たちの方法論は経験的および理論的分析を通じて厳密に検証されており、フォールトトレランスの強化と非同期 ML システムのパフォーマンスの最適化におけるその有効性が実証されています。
We address the challenges of Byzantine-robust training in asynchronous distributed machine learning systems, aiming to enhance efficiency amid massive parallelization and heterogeneous computing resources. Asynchronous systems, marked by independently operating workers and intermittent updates, uniquely struggle with maintaining integrity against Byzantine failures, which encompass malicious or erroneous actions that disrupt learning. The inherent delays in such settings not only introduce additional bias to the system but also obscure the disruptions caused by Byzantine faults. To tackle these issues, we adapt the Byzantine framework to asynchronous dynamics by introducing a novel weighted robust aggregation framework. This allows for the extension of robust aggregators and a recent meta-aggregator to their weighted versions, mitigating the effects of delayed updates. By further incorporating a recent variance-reduction technique, we achieve an optimal convergence rate for the first time in an asynchronous Byzantine environment. Our methodology is rigorously validated through empirical and theoretical analysis, demonstrating its effectiveness in enhancing fault tolerance and optimizing performance in asynchronous ML systems.
著者 | Tehila Dahan,Kfir Y. Levy |
発行日 | 2025-01-16 16:00:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google