要約
Personalized Federated Learning (pFL) は、フロリダ州のクライアント間でのデータの異質性に対処するための有望なソリューションとして浮上しています。
しかし、既存の pFL 手法は、(1) 高い通信コストと計算コストがかかるか、(2) 範囲が限定される可能性があるローカル データにオーバーフィットするため、自然なシフトを伴う進化したテスト サンプルに対して脆弱です。
この論文では、通信コストと計算コストを削減し、特にテスト時間の分布シフトの下で優れた汎化パフォーマンスを発揮する、パラメータ効率の高い pFL フレームワークである PerAda を提案します。
PerAda は、事前トレーニングされたモデルの機能を活用することでコストを削減し、アダプターから少数の追加パラメーターのみを更新して通信します。
PerAda は、各クライアントのパーソナライズされたアダプタをグローバル アダプタで正規化する一方で、グローバル アダプタは知識の蒸留を使用してすべてのクライアントからの一般化された情報を集約するため、良好な一般化を実現します。
理論的には、PerAda が汎化を改善する理由を説明するために汎化境界を提供し、非凸設定下での静止点への収束を証明します。
経験的に、PerAda は、ベースラインと比較して、自然および医療ドメインにわたるさまざまなデータセットで、競争力のあるパーソナライズされたパフォーマンス (CheXpert で +4.85%) を示し、分布外一般化 (CIFAR-10-C で +5.23%) を向上させますが、12.6 を更新するだけです。
アダプターに基づくモデルごとのパラメーターの割合。
私たちのコードは https://github.com/NVlabs/PerAda で入手できます。
要約(オリジナル)
Personalized Federated Learning (pFL) has emerged as a promising solution to tackle data heterogeneity across clients in FL. However, existing pFL methods either (1) introduce high communication and computation costs or (2) overfit to local data, which can be limited in scope, and are vulnerable to evolved test samples with natural shifts. In this paper, we propose PerAda, a parameter-efficient pFL framework that reduces communication and computational costs and exhibits superior generalization performance, especially under test-time distribution shifts. PerAda reduces the costs by leveraging the power of pretrained models and only updates and communicates a small number of additional parameters from adapters. PerAda has good generalization since it regularizes each client’s personalized adapter with a global adapter, while the global adapter uses knowledge distillation to aggregate generalized information from all clients. Theoretically, we provide generalization bounds to explain why PerAda improves generalization, and we prove its convergence to stationary points under non-convex settings. Empirically, PerAda demonstrates competitive personalized performance (+4.85% on CheXpert) and enables better out-of-distribution generalization (+5.23% on CIFAR-10-C) on different datasets across natural and medical domains compared with baselines, while only updating 12.6% of parameters per model based on the adapter. Our code is available at https://github.com/NVlabs/PerAda.
arxiv情報
著者 | Chulin Xie,De-An Huang,Wenda Chu,Daguang Xu,Chaowei Xiao,Bo Li,Anima Anandkumar |
発行日 | 2024-07-23 11:38:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google