要約
Federated Learning(FL)は、クライアント間の直接データ露出を回避する共同トレーニングの人気のあるパラダイムです。
ただし、データのプライバシーの問題はまだ残っています。FLトレーニングを受けた大規模な言語モデルは、プレフィックスで与えられたときにトレーニングデータに含まれるフレーズと文を記憶して完成させることができます。
したがって、敵対的で正直なが、しかし頻繁なクライアントは、ターゲットを絞ったプロンプトを通じて他の参加者のトレーニングデータを回復することが可能です。
この作業では、人気のあるシンプルな微調整戦略である低ランクの適応(LORA)がFLの記憶を10倍に減らすことを実証します。
外部の臨床データセットから描かれた分散型に敏感なシーケンスの複数のレプリカを注入します。
さまざまなLlama 2および3モデルの暗記の減少を観察し、Loraが集中学習の記憶を減らすことができることを発見しました。
さらに、LORAは、グラデーションクリッピングやガウスノーシング、安全な集約、金魚の損失などの他のプライバシーを提供する技術と組み合わせることで、パフォーマンスを維持しながらレコードレベルのプライバシーをさらに改善できることを示しています。
要約(オリジナル)
Federated learning (FL) is a popular paradigm for collaborative training which avoids direct data exposure between clients. However, data privacy issues still remain: FL-trained large language models are capable of memorizing and completing phrases and sentences contained in training data when given with their prefixes. Thus, it is possible for adversarial and honest-but-curious clients to recover training data of other participants simply through targeted prompting. In this work, we demonstrate that a popular and simple fine-tuning strategy, low-rank adaptation (LoRA), reduces memorization during FL up to a factor of 10. We study this effect by performing a medical question-answering fine-tuning task and injecting multiple replicas of out-of-distribution sensitive sequences drawn from an external clinical dataset. We observe a reduction in memorization for a wide variety of Llama 2 and 3 models, and find that LoRA can reduce memorization in centralized learning as well. Furthermore, we show that LoRA can be combined with other privacy-preserving techniques such as gradient clipping and Gaussian noising, secure aggregation, and Goldfish loss to further improve record-level privacy while maintaining performance.
arxiv情報
著者 | Thierry Bossy,Julien Vignoud,Tahseen Rabbani,Juan R. Troncoso Pastoriza,Martin Jaggi |
発行日 | 2025-02-07 17:04:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google