Improving Generalization in Federated Learning by Seeking Flat Minima

要約

フェデレーション設定でトレーニングされたモデルは、特に異種のシナリオに直面している場合、パフォーマンスが低下し、一般化に失敗することがよくあります。
この作業では、損失の幾何学とヘッセ固有スペクトルのレンズを通してそのような振る舞いを調査し、モデルの一般化能力の欠如を解の鋭さに関連付けます。
損失面のシャープネスと一般化ギャップを結び付ける以前の研究に動機付けられて、i)シャープネス認識最小化(SAM)またはその適応バージョン(ASAM)を使用してクライアントをローカルでトレーニングし、ii)確率的重み(SWA)を平均化することを示します。
サーバー側は、連合学習の一般化を大幅に改善し、集中型モデルとのギャップを埋めるのに役立ちます。
均一な低損失の近傍でパラメーターを探すことにより、モデルはより平坦な最小値に向かって収束し、その一般化は同種シナリオと異種シナリオの両方で大幅に向上します。
経験的結果は、さまざまなベンチマークビジョンデータセット(CIFAR10 / 100、Landmarks-User-160k、IDDAなど)およびタスク(大規模分類、セマンティックセグメンテーション、ドメイン一般化)にわたるこれらのオプティマイザーの有効性を示しています。

要約(オリジナル)

Models trained in federated settings often suffer from degraded performances and fail at generalizing, especially when facing heterogeneous scenarios. In this work, we investigate such behavior through the lens of geometry of the loss and Hessian eigenspectrum, linking the model’s lack of generalization capacity to the sharpness of the solution. Motivated by prior studies connecting the sharpness of the loss surface and the generalization gap, we show that i) training clients locally with Sharpness-Aware Minimization (SAM) or its adaptive version (ASAM) and ii) averaging stochastic weights (SWA) on the server-side can substantially improve generalization in Federated Learning and help bridging the gap with centralized models. By seeking parameters in neighborhoods having uniform low loss, the model converges towards flatter minima and its generalization significantly improves in both homogeneous and heterogeneous scenarios. Empirical results demonstrate the effectiveness of those optimizers across a variety of benchmark vision datasets (e.g. CIFAR10/100, Landmarks-User-160k, IDDA) and tasks (large scale classification, semantic segmentation, domain generalization).

arxiv情報

著者 Debora Caldarola,Barbara Caputo,Marco Ciccone
発行日 2022-07-21 17:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク