Privately Customizing Prefinetuning to Better Match User Data in Federated Learning

要約

フェデレーテッド ラーニング (FL) では、プライベート クライアント データにアクセスすると、通信とプライバシーのコストが発生します。
その結果、FL の展開では、一般的に、中央サーバーが保持する (大規模な、場合によっては公開されている) データセットで事前トレーニング済みの基盤モデルを事前に調整します。
次に、クライアントが保持する非公開のフェデレーション データセットでモデルを FL 微調整します。
したがって、事前微調整データセットの品質を確実かつ非公開で評価することは非常に重要です。
この目的のために、FreD (Federated Private Fr\’echet Distance) を提案します。これは、事前微調整データセットと連合データセットとの間の個人的に計算された距離です。
直観的に、中央 (パブリック) データセットとフェデレーションされたプライベート クライアント データの両方で、大規模な言語モデルによって生成された埋め込み間のフレシェ距離をプライベートに計算して比較します。
この計算のプライバシーを保護するために、分散型の差分プライベート平均および共分散推定量を使用します。
FreD が最小限のプライバシー コストで最適な事前調整データセットを正確に予測することを経験的に示しています。
全体として、FreD を使用して、プライベート FL トレーニングの新しいアプローチの概念実証を示します。(1) 事前微調整データセットをカスタマイズして、ユーザー データによりよく一致させる (2) 事前微調整 (3) FL 微調整を実行します。

要約(オリジナル)

In Federated Learning (FL), accessing private client data incurs communication and privacy costs. As a result, FL deployments commonly prefinetune pretrained foundation models on a (large, possibly public) dataset that is held by the central server; they then FL-finetune the model on a private, federated dataset held by clients. Evaluating prefinetuning dataset quality reliably and privately is therefore of high importance. To this end, we propose FreD (Federated Private Fr\’echet Distance) — a privately computed distance between a prefinetuning dataset and federated datasets. Intuitively, it privately computes and compares a Fr\’echet distance between embeddings generated by a large language model on both the central (public) dataset and the federated private client data. To make this computation privacy-preserving, we use distributed, differentially-private mean and covariance estimators. We show empirically that FreD accurately predicts the best prefinetuning dataset at minimal privacy cost. Altogether, using FreD we demonstrate a proof-of-concept for a new approach in private FL training: (1) customize a prefinetuning dataset to better match user data (2) prefinetune (3) perform FL-finetuning.

arxiv情報

著者 Charlie Hou,Hongyuan Zhan,Akshat Shrivastava,Sid Wang,Sasha Livshits,Giulia Fanti,Daniel Lazar
発行日 2023-02-17 18:18:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク