Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training

要約

この論文では、効率と実用性の両方を高めることに重点を置き、分散機械学習 (ML) システムにおけるビザンチン堅牢トレーニングの困難なフレームワークを調査します。
分散型 ML システムが複雑な ML タスクに不可欠になるにつれ、ワーカーが悪意やエラーゲインによって誤った更新を提供する可能性があるビザンチン障害に対する回復力を確保することが最も重要になります。
私たちの最初の貢献は、Centered Trimmed Meta Aggregator (CTMA) の導入です。これは、ベースライン アグリゲーターを最適なパフォーマンス レベルにアップグレードし、同時に低い計算需要を実現する効率的なメタ アグリゲーターです。
さらに、ビザンチンのコンテキスト内で二重運動量戦略に基づいて最近開発された勾配推定手法を利用することを提案します。
私たちの論文では、特に調整プロセスを簡素化し、多数のハイパーパラメータへの依存を軽減するという点で、ビザンチン堅牢トレーニングにおける理論的および実践的な利点を強調しています。
この手法の有効性は、確率的凸最適化 (SCO) フレームワーク内の理論的洞察によって裏付けられています。

要約(オリジナル)

In this paper, we investigate the challenging framework of Byzantine-robust training in distributed machine learning (ML) systems, focusing on enhancing both efficiency and practicality. As distributed ML systems become integral for complex ML tasks, ensuring resilience against Byzantine failures-where workers may contribute incorrect updates due to malice or error-gains paramount importance. Our first contribution is the introduction of the Centered Trimmed Meta Aggregator (CTMA), an efficient meta-aggregator that upgrades baseline aggregators to optimal performance levels, while requiring low computational demands. Additionally, we propose harnessing a recently developed gradient estimation technique based on a double-momentum strategy within the Byzantine context. Our paper highlights its theoretical and practical advantages for Byzantine-robust training, especially in simplifying the tuning process and reducing the reliance on numerous hyperparameters. The effectiveness of this technique is supported by theoretical insights within the stochastic convex optimization (SCO) framework.

arxiv情報

著者 Tehila Dahan,Kfir Y. Levy
発行日 2024-05-23 16:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク