要約
ビザンチン復元力のある分散機械学習は、不正行為や敵対的なワーカーの存在下でも堅牢な学習パフォーマンスを達成することを目指しています。
最先端 (SOTA) のロバスト分散勾配降下法 (Robust-DGD) 法は理論的には最適であることが証明されていますが、その経験的な成功は、多くの場合、事前集約勾配クリッピングに依存しています。
ただし、現在検討されている静的クリッピング戦略は、さまざまな結果を示します。つまり、一部の攻撃に対する堅牢性は向上しますが、他の攻撃に対しては効果がないか有害です。
私たちは、Adaptive Robust Clipping (ARC) と呼ばれる、原則に基づいた適応クリッピング戦略を提案することで、このギャップに対処します。
我々は、ARC が理論的な堅牢性の保証を維持しながら、SOTA Robust-DGD 手法の経験的な堅牢性を一貫して強化することを示します。
私たちの分析は、モデルが適切に初期化されている場合、ARC が Robust-DGD の漸近収束保証を明らかに改善することを示しています。
私たちは、画像分類タスクのベンチマークに関する一連の徹底的な実験を通じて、この理論的な洞察を検証します。
ARC によって引き起こされる改善は、非常に異質な環境や敵対的な環境でより顕著であることが観察されています。
要約(オリジナル)
Byzantine-resilient distributed machine learning seeks to achieve robust learning performance in the presence of misbehaving or adversarial workers. While state-of-the-art (SOTA) robust distributed gradient descent (Robust-DGD) methods were proven theoretically optimal, their empirical success has often relied on pre-aggregation gradient clipping. However, the currently considered static clipping strategy exhibits mixed results: improving robustness against some attacks while being ineffective or detrimental against others. We address this gap by proposing a principled adaptive clipping strategy, termed Adaptive Robust Clipping (ARC). We show that ARC consistently enhances the empirical robustness of SOTA Robust-DGD methods, while preserving the theoretical robustness guarantees. Our analysis shows that ARC provably improves the asymptotic convergence guarantee of Robust-DGD in the case when the model is well-initialized. We validate this theoretical insight through an exhaustive set of experiments on benchmark image classification tasks. We observe that the improvement induced by ARC is more pronounced in highly heterogeneous and adversarial settings.
arxiv情報
著者 | Youssef Allouah,Rachid Guerraoui,Nirupam Gupta,Ahmed Jellouli,Geovani Rizk,John Stephan |
発行日 | 2024-10-09 16:04:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google