要約
機密性の高いパブリック ドメイン アプリケーションにおける分散機械学習 (ML) の普及には、障害や敵対的な動作に対して堅牢でありながら、データ プライバシーを保護するアルゴリズムが必要です。
プライバシーと堅牢性は、分散 ML において独立して広く研究されてきましたが、それらの合成は依然として十分に理解されていません。
我々は、敵対的なマシンの一部に対する堅牢性と、その他の興味深いエンティティに対する正直なマシンのデータの差分プライバシー (DP) を保証するアルゴリズムによって発生するエラーの最初の厳密な分析を提示します。
私たちの分析は、プライバシー、堅牢性、実用性の間の基本的なトレードオフを示しています。
下限を証明するために、分散型 DP とロバスト性の制約を受ける平均推定のケースを検討し、一方向周辺限界の集中推定への削減を考案します。
高次元のロバストな集計ルールを使用した新しい分散 ML アルゴリズムを提示することで、マッチングの上限を証明します。
後者は、データの統計的特性に依存せずに、エラー (敵対的ワーカーと DP によって引き起こされる) のディメンションへの依存性を解消します。
要約(オリジナル)
The ubiquity of distributed machine learning (ML) in sensitive public domain applications calls for algorithms that protect data privacy, while being robust to faults and adversarial behaviors. Although privacy and robustness have been extensively studied independently in distributed ML, their synthesis remains poorly understood. We present the first tight analysis of the error incurred by any algorithm ensuring robustness against a fraction of adversarial machines, as well as differential privacy (DP) for honest machines’ data against any other curious entity. Our analysis exhibits a fundamental trade-off between privacy, robustness, and utility. To prove our lower bound, we consider the case of mean estimation, subject to distributed DP and robustness constraints, and devise reductions to centralized estimation of one-way marginals. We prove our matching upper bound by presenting a new distributed ML algorithm using a high-dimensional robust aggregation rule. The latter amortizes the dependence on the dimension in the error (caused by adversarial workers and DP), while being agnostic to the statistical properties of the data.
arxiv情報
著者 | Youssef Allouah,Rachid Guerraoui,Nirupam Gupta,Rafael Pinot,John Stephan |
発行日 | 2023-05-29 15:27:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google