要約
データのプライバシーを保護するために設計された新しいパラダイムであるフェデレーテッド ラーニングは、その分散型の性質によりバックドア攻撃に対して脆弱です。
現在の研究では、単一のバックドアを備えた単一の攻撃者に基づいて攻撃が設計されることが多く、フェデレーテッド ラーニングにおけるより現実的で複雑な脅威が見落とされています。
私たちは、フェデレーション ラーニングのためのより実用的な脅威モデル、つまり分散型マルチターゲット バックドアを提案します。
このモデルでは、複数の攻撃者がさまざまなクライアントを制御し、さまざまなトリガーを埋め込み、さまざまなクラスをターゲットにし、中央集約を介してグローバル モデルに共同してバックドアを埋め込みます。
経験的検証により、既存の手法ではグローバル モデルにおける複数のバックドアの有効性を維持するのが難しいことがわかりました。
私たちの重要な洞察は、同様のバックドア トリガーがパラメーターの競合を引き起こし、新しいバックドアを挿入すると勾配の方向が混乱し、一部のバックドアのパフォーマンスが大幅に低下するということです。
これを解決するために、さまざまな悪意のあるクライアントからのバックドアの効率と永続性を確保する、分散型マルチターゲット バックドア攻撃 (DMBA) を提案します。
パラメータの競合を回避するために、トリガーの違いを最大化するマルチチャネル分散周波数トリガー戦略を設計します。
勾配の干渉を軽減するために、ローカル トレーニングにバックドア リプレイを導入して、競合する勾配を無効にします。
広範な検証により、攻撃後 30 ラウンドが経過しても、さまざまなクライアントからの 3 つの異なるバックドアの攻撃成功率が 93% 以上を維持していることがわかりました。
コードはレビュー期間後に公開されます。
要約(オリジナル)
Federated learning, a novel paradigm designed to protect data privacy, is vulnerable to backdoor attacks due to its distributed nature. Current research often designs attacks based on a single attacker with a single backdoor, overlooking more realistic and complex threats in federated learning. We propose a more practical threat model for federated learning: the distributed multi-target backdoor. In this model, multiple attackers control different clients, embedding various triggers and targeting different classes, collaboratively implanting backdoors into the global model via central aggregation. Empirical validation shows that existing methods struggle to maintain the effectiveness of multiple backdoors in the global model. Our key insight is that similar backdoor triggers cause parameter conflicts and injecting new backdoors disrupts gradient directions, significantly weakening some backdoors performance. To solve this, we propose a Distributed Multi-Target Backdoor Attack (DMBA), ensuring efficiency and persistence of backdoors from different malicious clients. To avoid parameter conflicts, we design a multi-channel dispersed frequency trigger strategy to maximize trigger differences. To mitigate gradient interference, we introduce backdoor replay in local training to neutralize conflicting gradients. Extensive validation shows that 30 rounds after the attack, Attack Success Rates of three different backdoors from various clients remain above 93%. The code will be made publicly available after the review period.
arxiv情報
著者 | Tao Liu,Wu Yang,Chen Xu,Jiguang Lv,Huanran Wang,Yuhang Zhang,Shuchun Xu,Dapeng Man |
発行日 | 2024-11-12 14:04:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google