要約
Federated Learning (FL) は、クライアントが生データを共有せず、モデルの更新をサーバーに送信する分散環境で機械学習モデルをトレーニングするための設定です。
ただし、モデルの更新は攻撃の対象となり、個人情報が漏洩する可能性があります。
差分プライバシー (DP) は主要な緩和戦略であり、クリップされたモデルの更新にノイズを追加し、強力な理論上のプライバシー保証とパフォーマンスをトレードオフします。
以前の研究では、DP の脅威モデルが保守的であり、得られた保証が空虚であるか、実際には情報漏えいを過大評価している可能性があることが示されています。
このホワイトペーパーでは、現実的な脅威モデルを検討することで、モデルの露出をより厳密に測定することを目指しています。
カナリア (強力な敵によって慎重に作成されたサンプル) を使用して、トレーニング ラウンドの経験的プライバシーを評価する新しい方法、CANIFE を提案します。
この攻撃は、CIFAR-10 と CelebA でトレーニングされたビジョン モデルと、Sent140 と Shakespeare でトレーニングされた言語モデルに適用されます。
特に、現実的な FL シナリオでは、CANIFE で得られた経験的なラウンドごとのイプシロンが理論上の限界よりも 4 ~ 5 倍低いことを示しています。
要約(オリジナル)
Federated Learning (FL) is a setting for training machine learning models in distributed environments where the clients do not share their raw data but instead send model updates to a server. However, model updates can be subject to attacks and leak private information. Differential Privacy (DP) is a leading mitigation strategy which involves adding noise to clipped model updates, trading off performance for strong theoretical privacy guarantees. Previous work has shown that the threat model of DP is conservative and that the obtained guarantees may be vacuous or may overestimate information leakage in practice. In this paper, we aim to achieve a tighter measurement of the model exposure by considering a realistic threat model. We propose a novel method, CANIFE, that uses canaries – carefully crafted samples by a strong adversary to evaluate the empirical privacy of a training round. We apply this attack to vision models trained on CIFAR-10 and CelebA and to language models trained on Sent140 and Shakespeare. In particular, in realistic FL scenarios, we demonstrate that the empirical per-round epsilon obtained with CANIFE is 4-5x lower than the theoretical bound.
arxiv情報
著者 | Samuel Maddock,Alexandre Sablayrolles,Pierre Stock |
発行日 | 2023-03-01 18:22:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google