要約
Federated Learning(FL)は、ローカルデバイスにユーザーデータを保持することにより、プライバシーを強化します。
しかし、新たな攻撃は、トレーニング中にユーザーが共有する更新がデータに関する重要な情報を明らかにすることができることを実証しています。
これにより、デリケートなアプリケーションで堅牢なAIモデルをトレーニングするためのFLメソッドの採用を大いに阻止しています。
差動プライバシー(DP)は、ユーザーデータを保護するためのゴールドスタンダードと見なされます。
ただし、DP保証は非常に保守的であり、最悪のプライバシー保証を提供します。
これにより、プライバシーのニーズが過大評価され、モデルの精度が損なわれる可能性があります。
さらに、これらのプライバシー保証の解釈は、さまざまなコンテキストで挑戦的であることが証明されています。
これは、トレーニングの数、データ分布、特定のアプリケーション要件などの他の要因が、この問題にさらに複雑さを加えることができる場合、さらに悪化します。
この作業では、モデルのプライバシーとユーティリティの間の最適なトレードオフを決定するために、人間のエンティティをプライバシー実務者として統合するフレームワークを提案しました。
私たちのフレームワークは、リソース制限デバイス(携帯電話など)が参加できるFL設定での既存のDPメソッドの可変メモリ要件に最初に対処することです。
このような設定をサポートするために、固定メモリ使用量を使用して最近のDPメソッドを採用して、スケーラブルなプライベートFLを確保します。
接着剤データセット(文献の一般的なアプローチ)を使用してBERTベースのLLMモデルを微調整し、新しい会計士を活用し、実際の条件を模倣するための多様なデータ分割戦略を採用することにより、提案されたフレームワークを評価しました。
その結果、最先端のDP会計士と比較した場合、$ \ epsilon = 10 $ = 10 $、$ \ epsilon = 6 $で平均精度が1.33%、$ \ epsilon = 6 $の安定したメモリ使用量を達成しました。
固定メモリ使用量をサポートしていません。
要約(オリジナル)
Federated learning (FL) enhances privacy by keeping user data on local devices. However, emerging attacks have demonstrated that the updates shared by users during training can reveal significant information about their data. This has greatly thwart the adoption of FL methods for training robust AI models in sensitive applications. Differential Privacy (DP) is considered the gold standard for safeguarding user data. However, DP guarantees are highly conservative, providing worst-case privacy guarantees. This can result in overestimating privacy needs, which may compromise the model’s accuracy. Additionally, interpretations of these privacy guarantees have proven to be challenging in different contexts. This is further exacerbated when other factors, such as the number of training iterations, data distribution, and specific application requirements, can add further complexity to this problem. In this work, we proposed a framework that integrates a human entity as a privacy practitioner to determine an optimal trade-off between the model’s privacy and utility. Our framework is the first to address the variable memory requirement of existing DP methods in FL settings, where resource-limited devices (e.g., cell phones) can participate. To support such settings, we adopt a recent DP method with fixed memory usage to ensure scalable private FL. We evaluated our proposed framework by fine-tuning a BERT-based LLM model using the GLUE dataset (a common approach in literature), leveraging the new accountant, and employing diverse data partitioning strategies to mimic real-world conditions. As a result, we achieved stable memory usage, with an average accuracy reduction of 1.33% for $\epsilon = 10$ and 1.9% for $\epsilon = 6$, when compared to the state-of-the-art DP accountant which does not support fixed memory usage.
arxiv情報
著者 | Kasra Ahmadi,Rouzbeh Behnia,Reza Ebrahimi,Mehran Mozaffari Kermani,Jeremiah Birrell,Jason Pacheco,Attila A Yavuz |
発行日 | 2025-02-14 18:52:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google