Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning

要約

フェデレーテッド ラーニング (FL) を通じてトレーニングされた言語モデルは、ユーザーのプライバシーを保護しながら複雑なタスクを処理する優れた機能を実証します。
最近の研究では、勾配情報と事前知識を活用すると、FL 設定内のトレーニング サンプルを明らかにできる可能性があることが示されています。
しかし、これらの調査では、モデルの本質的なアーキテクチャに関連する潜在的なプライバシー リスクが見落とされています。
この論文では、現代の言語モデルのアーキテクチャの脆弱性をターゲットとした 2 段階のプライバシー攻撃戦略を紹介します。最初に追加の監視信号として特定の機能の方向を回復することで、攻撃パフォーマンスを大幅に強化します。
私たちの比較実験では、さまざまなデータセットやシナリオにわたって優れた攻撃パフォーマンスを実証し、ますます複雑化する言語モデルのアーキテクチャに関連するプライバシー漏洩のリスクを浮き彫りにしています。
私たちはコミュニティに対し、大規模な言語モデルを設計する際にこれらの潜在的なプライバシー リスクを認識し、対処するよう呼びかけます。

要約(オリジナル)

Language models trained via federated learning (FL) demonstrate impressive capabilities in handling complex tasks while protecting user privacy. Recent studies indicate that leveraging gradient information and prior knowledge can potentially reveal training samples within FL setting. However, these investigations have overlooked the potential privacy risks tied to the intrinsic architecture of the models. This paper presents a two-stage privacy attack strategy that targets the vulnerabilities in the architecture of contemporary language models, significantly enhancing attack performance by initially recovering certain feature directions as additional supervisory signals. Our comparative experiments demonstrate superior attack performance across various datasets and scenarios, highlighting the privacy leakage risk associated with the increasingly complex architectures of language models. We call for the community to recognize and address these potential privacy risks in designing large language models.

arxiv情報

著者 Jianwei Li,Sheng Liu,Qi Lei
発行日 2024-03-13 11:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク