Identifying Backdoor Attacks in Federated Learning via Anomaly Detection

要約

データプライバシーに対する規制上の要求の高まりに応えて、フェデレーションラーニングの採用が近年増加しています。
ただし、フェデレーション ラーニングの不透明なローカル トレーニング プロセスにより、モデルの忠実性に対する懸念も高まります。
たとえば、フェデレーテッド ラーニングはバックドア攻撃に対して脆弱であることが研究で明らかになりました。バックドア トリガーが存在すると、侵害された参加者がモデルの動作をこっそり変更する可能性があります。
このペーパーでは、共有モデルの更新を調べることで、攻撃に対する効果的な防御方法を提案します。
まず、バックドアの埋め込みが、モデルの勾配の大きさと向きという点で参加者のローカル モデルの重みに影響を及ぼし、それが識別可能な差異として現れる可能性があるという観察から始めます。
モデルの勾配のサブセットの統計的分布を調査することにより、バックドアの確実な特定が可能になります。
具体的には、まずモデルの勾配を、モデル パラメーターの小さな部分を表すフラグメント ベクトルに分割します。
次に、異常検出を使用して、分布的に偏ったフラグメントを特定し、最も外れ値が多い参加者を排除します。
私たちはその発見を新たな防御手法 ARIBA として具現化します。
私たちは広範な分析を通じて、私たちが提案する方法がタスクのユーティリティへの影響を最小限に抑えながら、最先端のバックドア攻撃を効果的に軽減できることを実証します。

要約(オリジナル)

Federated learning has seen increased adoption in recent years in response to the growing regulatory demand for data privacy. However, the opaque local training process of federated learning also sparks rising concerns about model faithfulness. For instance, studies have revealed that federated learning is vulnerable to backdoor attacks, whereby a compromised participant can stealthily modify the model’s behavior in the presence of backdoor triggers. This paper proposes an effective defense against the attack by examining shared model updates. We begin with the observation that the embedding of backdoors influences the participants’ local model weights in terms of the magnitude and orientation of their model gradients, which can manifest as distinguishable disparities. We enable a robust identification of backdoors by studying the statistical distribution of the models’ subsets of gradients. Concretely, we first segment the model gradients into fragment vectors that represent small portions of model parameters. We then employ anomaly detection to locate the distributionally skewed fragments and prune the participants with the most outliers. We embody the findings in a novel defense method, ARIBA. We demonstrate through extensive analyses that our proposed methods effectively mitigate state-of-the-art backdoor attacks with minimal impact on task utility.

arxiv情報

著者 Yuxi Mi,Yiheng Sun,Jihong Guan,Shuigeng Zhou
発行日 2023-08-23 16:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク