Little is Enough: Boosting Privacy by Sharing Only Hard Labels in Federated Semi-Supervised Learning

要約

多くの重要なアプリケーションでは、機密データは本質的に分散されており、プライバシー上の懸念から一元化できません。
機密データを共有せずに、各クライアントでモデルをローカルにトレーニングするための幅広いフェデレーテッド ラーニング アプローチが提案されています。通常は、モデル パラメーター、または公開データセット上の確率的予測 (ソフト ラベル) またはその両方の組み合わせを交換します。
ただし、これらの方法では依然として個人情報が開示され、ローカル モデルは勾配ベースの方法を使用してトレーニングできるものに制限されます。
私たちは、ラベルのない公開データセット上の最終的な (ハード) ラベルのみを共有することでプライバシーを向上させるフェデレーション共同トレーニング (FedCT) アプローチを提案します。
クライアントは、これらの共有ラベルのコンセンサスをローカル トレーニングの疑似ラベルとして使用します。
このフェデレーテッド共同トレーニング アプローチは、モデルの品質を損なうことなく、経験的にプライバシーを強化します。
さらに、勾配ブースト デシジョン ツリー、ルール アンサンブル、ランダム フォレストなど、従来のフェデレーション ラーニングでのパラメーター集約には適していないローカル モデルの使用が可能になります。
さらに、FedCT が大規模な言語モデルのフェデレーテッド微調整において効果的に機能し、その擬似ラベル付けメカニズムが特に有益であることが観察されました。
実証的評価と理論的分析により、さまざまな連合学習シナリオに適用できることが示唆されています。

要約(オリジナル)

In many critical applications, sensitive data is inherently distributed and cannot be centralized due to privacy concerns. A wide range of federated learning approaches have been proposed to train models locally at each client without sharing their sensitive data, typically by exchanging model parameters, or probabilistic predictions (soft labels) on a public dataset or a combination of both. However, these methods still disclose private information and restrict local models to those that can be trained using gradient-based methods. We propose a federated co-training (FedCT) approach that improves privacy by sharing only definitive (hard) labels on a public unlabeled dataset. Clients use a consensus of these shared labels as pseudo-labels for local training. This federated co-training approach empirically enhances privacy without compromising model quality. In addition, it allows the use of local models that are not suitable for parameter aggregation in traditional federated learning, such as gradient-boosted decision trees, rule ensembles, and random forests. Furthermore, we observe that FedCT performs effectively in federated fine-tuning of large language models, where its pseudo-labeling mechanism is particularly beneficial. Empirical evaluations and theoretical analyses suggest its applicability across a range of federated learning scenarios.

arxiv情報

著者 Amr Abourayya,Jens Kleesiek,Kanishka Rao,Erman Ayday,Bharat Rao,Geoff Webb,Michael Kamp
発行日 2024-12-20 14:51:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク