Fed-MIWAE: Federated Imputation of Incomplete Data via Deep Generative Models

要約

タイトル:Fed-MIWAE:深層生成モデルによる不完全データのフェデレーテッド補完

要約:

– フェデレーテッドラーニングは、明示的なデータ交換を必要とせずに、複数の分散型ローカルデータセット上で機械学習モデルのトレーニングが可能です。
– しかし、欠損データの処理戦略を含むデータ前処理は、実際のフェデレーテッドラーニングの展開において依然として主要なボトルネックであり、通常、地域ごとに実行されます。
– このアプローチは、各センターで局所的に観察される分集団が全体的なものを代表していない可能性があるため、バイアスがあるかもしれません。
– この問題に対処するため、本論文はまず、フェデレーテッドモデルを介したより一貫したデータ標準化のアプローチを提案します。
– 加えて、本論文では、MIWAEという最先端の欠損データ補完法のフェデレーテッドバージョンであるFed-MIWAEを提案しています。
– MIWAEは、潜在変数モデルである変分オートエンコーダに基づく欠損データ補完法です。
– 選択可能聚合子で簡単にトレーニングできるため、クラシックなフェデレーテッド集約器によってトレーニングが可能です。
– さらに、Fed-MIWAEは、MCAR(完全にランダムに不足している)よりも難解な欠損データメカニズムであるMAR(ランダムに不足しているデータが観測されたものに依存する場合)に対処できます。
– 本論文では、最適化された多段欠損データを持つADNIデータセットで、マルチモーダル医療画像データと臨床スコアをシミュレートしたフェデレーテッドシナリオで、Fed-MIWAEをクラシックなローカルまたは集中型補完法と比較して評価しました。
– Fed-MIWAEを使用すると、局所的なデータ分布が非常に異質であっても、最高の集中型方法と同等の補完精度を実現できます。
– さらに、Fed-MIWAEの変動的性質のおかげで、本方法は多重補完を実行するように設計されており、フェデレーテッドシナリオでの補完の不確実性を量化することができます。

要約(オリジナル)

Federated learning allows for the training of machine learning models on multiple decentralized local datasets without requiring explicit data exchange. However, data pre-processing, including strategies for handling missing data, remains a major bottleneck in real-world federated learning deployment, and is typically performed locally. This approach may be biased, since the subpopulations locally observed at each center may not be representative of the overall one. To address this issue, this paper first proposes a more consistent approach to data standardization through a federated model. Additionally, we propose Fed-MIWAE, a federated version of the state-of-the-art imputation method MIWAE, a deep latent variable model for missing data imputation based on variational autoencoders. MIWAE has the great advantage of being easily trainable with classical federated aggregators. Furthermore, it is able to deal with MAR (Missing At Random) data, a more challenging missing-data mechanism than MCAR (Missing Completely At Random), where the missingness of a variable can depend on the observed ones. We evaluate our method on multi-modal medical imaging data and clinical scores from a simulated federated scenario with the ADNI dataset. We compare Fed-MIWAE with respect to classical imputation methods, either performed locally or in a centralized fashion. Fed-MIWAE allows to achieve imputation accuracy comparable with the best centralized method, even when local data distributions are highly heterogeneous. In addition, thanks to the variational nature of Fed-MIWAE, our method is designed to perform multiple imputation, allowing for the quantification of the imputation uncertainty in the federated scenario.

arxiv情報

著者 Irene Balelli,Aude Sportisse,Francesco Cremonesi,Pierre-Alexandre Mattei,Marco Lorenzi
発行日 2023-04-17 08:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク