Population Expansion for Training Language Models with Private Federated Learning

要約

フェデレーテッド ラーニング (FL) と差分プライバシー (DP) を組み合わせると、分散デバイスと正式なプライバシー保証を備えた機械学習 (ML) トレーニングが提供されます。
デバイスの数が多い場合、FL と DP はパフォーマンスの高いモデルをタイムリーに生成します。
ただし、人口が少ないアプリケーションの場合、DP ノイズが人口に反比例するため、モデルのユーティリティが低下するだけでなく、小さなプールから十分なクライアントが利用可能になるまでの待機時間が遅くなるため、トレーニングの待ち時間も増加します。
したがって、この研究では、トレーニングを高速化し、小さな母集団でトレーニングする場合の最終モデルの品質を向上させるために、ドメイン適応技術に基づいて母集団を拡大することを提案します。
私たちは、現実世界の言語モデリング データセットにおいて、私たちの技術が実用性を 13% ~ 30% 向上させることができることを経験的に示しています。

要約(オリジナル)

Federated learning (FL) combined with differential privacy (DP) offers machine learning (ML) training with distributed devices and with a formal privacy guarantee. With a large population of devices, FL with DP produces a performant model in a timely manner. However, for applications with a smaller population, not only does the model utility degrade as the DP noise is inversely proportional to population, but also the training latency increases since waiting for enough clients to become available from a smaller pool is slower. In this work, we thus propose expanding the population based on domain adaptation techniques to speed up the training and improves the final model quality when training with small populations. We empirically demonstrate that our techniques can improve the utility by 13% to 30% on real-world language modeling datasets.

arxiv情報

著者 Tatsuki Koga,Congzheng Song,Martin Pelikan,Mona Chitnis
発行日 2023-07-14 16:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク