Stable Diffusion-based Data Augmentation for Federated Learning with Non-IID Data

要約

エッジ デバイスの急増により、フェデレーテッド ラーニング (FL) が、クライアントのデータのプライバシーを保護しながら分散型および協調的なモデル トレーニングを行うための有望なパラダイムとして最前線に浮上しています。
しかし、FL は、参加しているクライアント間の非独立かつ同一分散 (Non-IID) データ分散に直面すると、大幅なパフォーマンスの低下と収束の低下に悩まされます。
クライアント ドリフトの軽減や高度なサーバー側モデル融合技術などのこれまでの取り組みは、この課題への対処にある程度の成功を収めてきましたが、多くの場合、パフォーマンス低下の根本原因、つまり、グローバルなデータ分散を正確に反映する同一データが存在しないことを見落としています。
クライアント。
このペーパーでは、最先端のテキストから画像への基礎モデルの強力な機能を利用して、フロリダ州の重大な非 IID パフォーマンス ギャップを埋める新しいアプローチである Gen-FedSD を紹介します。
Gen-FedSD では、各クライアントは各クラス ラベルのテキスト プロンプトを構築し、既製の事前トレーニング済み安定拡散モデルを活用して高品質のデータ サンプルを合成します。
生成された合成データは、各クライアント固有のローカル データ ギャップと分布の不均衡に合わせて調整され、最終的な拡張ローカル データ IID が効果的に作成されます。
広範な実験を通じて、Gen-FedSD がさまざまなデータセットおよび非 IID 設定にわたって最先端のパフォーマンスと大幅な通信コストの削減を達成することを実証しました。

要約(オリジナル)

The proliferation of edge devices has brought Federated Learning (FL) to the forefront as a promising paradigm for decentralized and collaborative model training while preserving the privacy of clients’ data. However, FL struggles with a significant performance reduction and poor convergence when confronted with Non-Independent and Identically Distributed (Non-IID) data distributions among participating clients. While previous efforts, such as client drift mitigation and advanced server-side model fusion techniques, have shown some success in addressing this challenge, they often overlook the root cause of the performance reduction – the absence of identical data accurately mirroring the global data distribution among clients. In this paper, we introduce Gen-FedSD, a novel approach that harnesses the powerful capability of state-of-the-art text-to-image foundation models to bridge the significant Non-IID performance gaps in FL. In Gen-FedSD, each client constructs textual prompts for each class label and leverages an off-the-shelf state-of-the-art pre-trained Stable Diffusion model to synthesize high-quality data samples. The generated synthetic data is tailored to each client’s unique local data gaps and distribution disparities, effectively making the final augmented local data IID. Through extensive experimentation, we demonstrate that Gen-FedSD achieves state-of-the-art performance and significant communication cost savings across various datasets and Non-IID settings.

arxiv情報

著者 Mahdi Morafah,Matthias Reisser,Bill Lin,Christos Louizos
発行日 2024-05-13 16:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク