要約
最近、知識蒸留 (KD) に基づく革新的なモデル集約手法がフェデレーテッド ラーニング (FL) 向けに提案されています。
これらの方法により、異種学習環境におけるモデル集約の堅牢性が向上しただけでなく、クライアント デバイス上で異種モデルをトレーニングすることも可能になりました。
しかし、既存の方法のスケーラビリティは満足のいくものではありません。クライアントの数に応じてサーバー上のトレーニング コストが増加し、大規模システムでの適用が制限されるからです。
さらに、既存のメソッドのアンサンブルは、同じチェックポイントから初期化されたクライアント モデルのセットから構築されているため、多様性が低くなります。
この論文では、スケーラブルで多様性が強化されたフェデレーテッド蒸留スキーム FedSDD を提案します。これは、トレーニングの複雑さをクライアントの数から切り離してスケーラビリティを強化し、多様性が強化された一連の集約モデルからアンサンブルを構築します。
特に、FedSDD の教師モデルは、すべてのクライアント モデルではなく、集約された (グローバル) モデルの小グループによって構築されたアンサンブルであるため、計算コストはクライアントの数に比例しません。
さらに、多様性を強化するために、FedSDD はグローバル モデルの 1 つ、つまり \textit{メイン グローバル モデル} を強化するためにのみ KD を実行します。これにより、アンサンブルとメイン グローバル モデルの両方のパフォーマンスが向上します。
クライアント モデルをより多くのグループに分割すると、より集約されたモデルを含むアンサンブルを構築できますが、個々の集約モデルの収束は遅くなります。
この問題を活用する時間的アンサンブルを導入し、異種設定での大幅な改善を実現します。
実験結果は、ベンチマーク データセットにおいて FedSDD が FedAvg や FedDF などの他の FL 手法よりも優れていることを示しています。
要約(オリジナル)
Recently, innovative model aggregation methods based on knowledge distillation (KD) have been proposed for federated learning (FL). These methods not only improved the robustness of model aggregation over heterogeneous learning environment, but also allowed training heterogeneous models on client devices. However, the scalability of existing methods is not satisfactory, because the training cost on the server increases with the number of clients, which limits their application in large scale systems. Furthermore, the ensemble of existing methods is built from a set of client models initialized from the same checkpoint, causing low diversity. In this paper, we propose a scalable and diversity-enhanced federated distillation scheme, FedSDD, which decouples the training complexity from the number of clients to enhance the scalability, and builds the ensemble from a set of aggregated models with enhanced diversity. In particular, the teacher model in FedSDD is an ensemble built by a small group of aggregated (global) models, instead of all client models, such that the computation cost will not scale with the number of clients. Furthermore, to enhance diversity, FedSDD only performs KD to enhance one of the global models, i.e., the \textit{main global model}, which improves the performance of both the ensemble and the main global model. While partitioning client model into more groups allow building an ensemble with more aggregated models, the convergence of individual aggregated models will be slow down. We introduce the temporal ensembling which leverage the issues, and provide significant improvement with the heterogeneous settings. Experiment results show that FedSDD outperforms other FL methods, including FedAvg and FedDF, on the benchmark datasets.
arxiv情報
著者 | Ho Man Kwan,Shenghui Song |
発行日 | 2023-12-28 14:10:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google