LOKI: Large-scale Data Reconstruction Attack against Federated Learning through Model Manipulation

要約

フェデレーテッド ラーニングは、データ共有の必要性を排除することでプライバシーを確​​保しながら、大規模な分散データセットに対する機械学習を可能にするために導入されました。
それにもかかわらず、これまでの研究では、共有勾配には個人情報が含まれることが多く、攻撃者はアーキテクチャとパラメータの悪意のある変更を通じて、または最適化を使用して共有勾配からユーザー データを近似することによって知識を得ることができることが示されています。
ただし、これまでのデータ再構築攻撃は、ほとんどの攻撃が FedSGD をターゲットにしており、攻撃が単一クライアントの勾配に限定されていたため、設定と規模が制限されていました。
これらの攻撃の多くは、FedAVG のより実用的な設定、または安全な集約を使用して更新が集約される場合には失敗します。
データの再構築は大幅に困難になり、その結果、攻撃の規模が制限されたり、再構築の品質が低下したりします。
FedAVG と安全な集約の両方が使用されている場合、フェデレーテッド ラーニング設定で複数のクライアントを同時に攻撃できる方法は現在のところありません。
この研究では、以前の制限を克服し、漏洩したデータが識別可能であり、データの送信元のクライアントに直接結び付けられるため、集約の匿名性も破壊する攻撃である LOKI を紹介します。
私たちの設計では、カスタマイズされた畳み込みパラメータをクライアントに送信し、クライアント間のデータ ポイントの重み勾配は、集計を通じても分離されたままになります。
FedAVG と 100 クライアントにわたる集約を使用すると、以前の作業により MNIST、CIFAR-100、Tiny ImageNet 上の画像が漏洩する可能性は 1% 未満になります。
たった 1 回のトレーニング ラウンドを使用して、LOKI はすべてのデータ サンプルの 76 ~ 86% を漏洩することができます。

要約(オリジナル)

Federated learning was introduced to enable machine learning over large decentralized datasets while promising privacy by eliminating the need for data sharing. Despite this, prior work has shown that shared gradients often contain private information and attackers can gain knowledge either through malicious modification of the architecture and parameters or by using optimization to approximate user data from the shared gradients. However, prior data reconstruction attacks have been limited in setting and scale, as most works target FedSGD and limit the attack to single-client gradients. Many of these attacks fail in the more practical setting of FedAVG or if updates are aggregated together using secure aggregation. Data reconstruction becomes significantly more difficult, resulting in limited attack scale and/or decreased reconstruction quality. When both FedAVG and secure aggregation are used, there is no current method that is able to attack multiple clients concurrently in a federated learning setting. In this work we introduce LOKI, an attack that overcomes previous limitations and also breaks the anonymity of aggregation as the leaked data is identifiable and directly tied back to the clients they come from. Our design sends clients customized convolutional parameters, and the weight gradients of data points between clients remain separate even through aggregation. With FedAVG and aggregation across 100 clients, prior work can leak less than 1% of images on MNIST, CIFAR-100, and Tiny ImageNet. Using only a single training round, LOKI is able to leak 76-86% of all data samples.

arxiv情報

著者 Joshua C. Zhao,Atul Sharma,Ahmed Roushdy Elkordy,Yahya H. Ezzeldin,Salman Avestimehr,Saurabh Bagchi
発行日 2023-09-25 15:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク