Federated Learning with Imbalanced and Agglomerated Data Distribution for Medical Image Classification

要約

フェデレーテッド ラーニング (FL) は、プライバシーを漏らさずに分散データからディープ モデルをトレーニングするもので、最近大きな注目を集めています。
FL の 2 つの一般的な問題、つまり、ローカルの観点からのデータの不均一性と、グローバルな観点からのクラスの不均衡により、FL のパフォーマンスが制限されています。
これらの 2 つの結合問題は十分に調査されておらず、既存のいくつかの研究は、実際のシーン (医療シーンなど) でのデータ分布をモデル化するには十分に現実的ではない可能性があります。
一般的な観察結果の 1 つは、クライアント間の全体的なクラス分布が不均衡であり (例: 一般的な疾患と希少疾患)、データがより高度なクライアントに集約される傾向があり (つまり、データ集約効果)、既存の設定ではモデル化できないことです。
実際の医用画像データセットに着想を得て、L2 分布と呼ばれる新しいより現実的なデータ分布を特定して定式化します。この分布では、グローバルなクラス分布が非常に不均衡であり、クライアント間のデータ分布が不均衡ですが、ある程度のデータ凝集が形成されます。
この分布の下で効果的な FL を追求するために、不均衡なトレーニングによって引き起こされるバイアスを軽減するために深いモデルを調整する FedIIC という名前の新しいプライバシー保護フレームワークを提案します。
特徴抽出部分を調整するために、変更された類似性尺度を使用したクライアント内対照学習と、共有グローバルプロトタイプによって導かれるクライアント間対照学習が導入され、クライアント全体のすべてのクラスの均一な埋め込み分布が生成されます。
分類ヘッドを調整するために、すべてのクラスのバランスの取れた決定境界を確保するために、難易度を考慮したロジット調整を伴うソフトマックス クロス エントロピー損失が構築されます。
公開されているデータセットに関する実験結果は、提案された現実的なモデリングと 2 つの結合問題の既存のモデリングの両方を処理する際の FedIIC の優れたパフォーマンスを示しています。

要約(オリジナル)

Federated learning (FL), training deep models from decentralized data without privacy leakage, has drawn great attention recently. Two common issues in FL, namely data heterogeneity from the local perspective and class imbalance from the global perspective have limited FL’s performance. These two coupling problems are under-explored, and existing few studies may not be sufficiently realistic to model data distributions in practical sceneries (e.g. medical sceneries). One common observation is that the overall class distribution across clients is imbalanced (e.g. common vs. rare diseases) and data tend to be agglomerated to those more advanced clients (i.e., the data agglomeration effect), which cannot be modeled by existing settings. Inspired by real medical imaging datasets, we identify and formulate a new and more realistic data distribution denoted as L2 distribution where global class distribution is highly imbalanced and data distributions across clients are imbalanced but forming a certain degree of data agglomeration. To pursue effective FL under this distribution, we propose a novel privacy-preserving framework named FedIIC that calibrates deep models to alleviate bias caused by imbalanced training. To calibrate the feature extractor part, intra-client contrastive learning with a modified similarity measure and inter-client contrastive learning guided by shared global prototypes are introduced to produce a uniform embedding distribution of all classes across clients. To calibrate the classification heads, a softmax cross entropy loss with difficulty-aware logit adjustment is constructed to ensure balanced decision boundaries of all classes. Experimental results on publicly-available datasets demonstrate the superior performance of FedIIC in dealing with both the proposed realistic modeling and the existing modeling of the two coupling problems.

arxiv情報

著者 Nannan Wu,Li Yu,Xin Yang,Kwang-Ting Cheng,Zengqiang Yan
発行日 2022-12-26 06:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク