Align as Ideal: Cross-Modal Alignment Binding for Federated Medical Vision-Language Pre-training

要約

ビジョン言語事前トレーニング (VLP) は、マルチモーダル表現学習の効率的なスキームとして登場しましたが、事前トレーニングには大規模なマルチモーダル データが必要であり、特に医療アプリケーションにとっては障害となります。
データ制限を克服するには、フェデレーテッド ラーニング (FL) が、データ プライバシーを保護しながら医療 VLP 用のデータセットをスケールアップする有望な戦略となり得ます。
ただし、現実世界のシナリオではクライアント データは異種であることが多く、異種クライアント データに対するローカル トレーニングはマルチモーダル表現の学習を歪め、偏ったクロスモーダル アライメントにつながることが観察されています。
この課題に対処するために、データの異質性に対する堅牢性を備えたフェデレーテッド VLP 用の Federated Align as IDeal (FedAID) フレームワークを提案し、ローカル クライアントを理想的なクロスモーダル アライメントでバインドします。
具体的には、ローカル トレーニング中にクライアント データセットから多様なセマンティクスを学習しながら、グローバルに集約された特徴の歪みを軽減するために、ローカル モデルによって学習されたモデル間で整列された表現空間を、ガイダンスベースの正則化を介して不偏の表現空間にバインドすることを提案します。
さらに、分布ベースの最小-最大最適化を採用して、フェデレーション事前トレーニングの各通信ターンで不偏のクロスモーダル調整を学習します。
実世界のデータセットでの実験は、私たちの方法がデータの異質性を伴う医療 VLP の効率的な統合マルチモーダル学習を促進することに成功していることを示しています。

要約(オリジナル)

Vision-language pre-training (VLP) has arised as an efficient scheme for multimodal representation learning, but it requires large-scale multimodal data for pre-training, making it an obstacle especially for medical applications. To overcome the data limitation, federated learning (FL) can be a promising strategy to scale up the dataset for medical VLP while protecting data privacy. However, client data are often heterogeneous in real-world scenarios, and we observe that local training on heterogeneous client data would distort the multimodal representation learning and lead to biased cross-modal alignment. To address this challenge, we propose a Federated Align as IDeal (FedAID) framework for federated VLP with robustness to data heterogeneity, to bind local clients with an ideal crossmodal alignment. Specifically, to reduce distortions on global-aggregated features while learning diverse semantics from client datasets during local training, we propose to bind the cross-model aligned representation space learned by local models with an unbiased one via guidance-based regularization. Moreover, we employ a distribution-based min-max optimization to learn the unbiased cross-modal alignment at each communication turn of federated pre-training. The experiments on real-world datasets demonstrate our method successfully promotes efficient federated multimodal learning for medical VLP with data heterogeneity.

arxiv情報

著者 Zitao Shuai,Liyue Shen
発行日 2024-05-24 15:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク