要約
私たちは、大規模な並列化と異種コンピューティング リソースの中で効率を向上させることを目的として、非同期分散機械学習システムにおけるビザンチン堅牢トレーニングの課題に取り組みます。
独立して動作するワーカーと断続的な更新を特徴とする非同期システムは、学習を中断する悪意のあるアクションや誤ったアクションを含むビザンチン障害に対する整合性を維持するのに特有の苦労をします。
このような設定に固有の遅延は、システムにさらなるバイアスをもたらすだけでなく、ビザンチン障害によって引き起こされる混乱を目立たなくします。
これらの問題に取り組むために、新しい重み付けされた堅牢な集約フレームワークを導入することで、Byzantine フレームワークを非同期ダイナミクスに適応させます。
これにより、堅牢なアグリゲーターと最新のメタアグリゲーターを加重バージョンに拡張でき、更新の遅延の影響を軽減できます。
最近の分散削減技術をさらに組み込むことにより、非同期ビザンチン環境で初めて最適な収束率を達成しました。
私たちの方法論は経験的および理論的分析を通じて厳密に検証されており、フォールトトレランスの強化と非同期 ML システムのパフォーマンスの最適化におけるその有効性が実証されています。
要約(オリジナル)
We address the challenges of Byzantine-robust training in asynchronous distributed machine learning systems, aiming to enhance efficiency amid massive parallelization and heterogeneous computing resources. Asynchronous systems, marked by independently operating workers and intermittent updates, uniquely struggle with maintaining integrity against Byzantine failures, which encompass malicious or erroneous actions that disrupt learning. The inherent delays in such settings not only introduce additional bias to the system but also obscure the disruptions caused by Byzantine faults. To tackle these issues, we adapt the Byzantine framework to asynchronous dynamics by introducing a novel weighted robust aggregation framework. This allows for the extension of robust aggregators and a recent meta-aggregator to their weighted versions, mitigating the effects of delayed updates. By further incorporating a recent variance-reduction technique, we achieve an optimal convergence rate for the first time in an asynchronous Byzantine environment. Our methodology is rigorously validated through empirical and theoretical analysis, demonstrating its effectiveness in enhancing fault tolerance and optimizing performance in asynchronous ML systems.
arxiv情報
著者 | Tehila Dahan,Kfir Y. Levy |
発行日 | 2025-01-16 16:00:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google