Mind the Gap: Federated Learning Broadens Domain Generalization in Diagnostic AI Models

要約

目に見えないデータセットまで一般化する堅牢な人工知能 (AI) モデルの開発は困難であり、通常、できれば複数の機関からの大規模で可変のデータセットが必要です。
フェデレーション ラーニング (FL) では、ローカル データセットを交換することなく、ローカル データセットを保持する多数のサイトでモデルが共同してトレーニングされます。
これまでのところ、胸部 X 線写真を解釈する AI モデルのオンドメインおよびオフドメインの診断パフォーマンスに対するトレーニング戦略 (ローカル対共同) の影響は評価されていません。
その結果、世界中の 5 つの施設からの 610,000 枚の胸部 X 線写真を使用して、トレーニング戦略 (つまり、ローカル vs. 協調)、ネットワーク アーキテクチャ (つまり、畳み込みベース vs. トランスベース)、一般化パフォーマンス (つまり、
オンドメイン vs オフドメイン)、画像所見(すなわち、心肥大、胸水、肺炎、無気肺、地固め、気胸、異常なし)、データセットのサイズ(すなわち、n=18,000 ~ 213,921 の X 線写真)、およびデータセットの多様性

大規模なデータセットでは、FL によるパフォーマンスの向上が最小限に抑えられただけでなく、場合によってはパフォーマンスの低下さえ見られました。
対照的に、より小さいデータセットでは顕著な改善が見られました。
したがって、オンドメインのパフォーマンスは主にトレーニング データのサイズによって決まりました。
ただし、ドメイン外のパフォーマンスはトレーニングの多様性により大きく依存しました。
多様な外部機関で共同してトレーニングされた場合、AI モデルはオフドメイン タスク用にローカルでトレーニングされたモデルを常に上回り、データの多様性を活用する FL の可能性が強調されました。
結論として、FL は AI モデルの診断プライバシー、再現性、オフドメインの信頼性を強化し、潜在的に医療成果を最適化することができます。

要約(オリジナル)

Developing robust artificial intelligence (AI) models that generalize well to unseen datasets is challenging and usually requires large and variable datasets, preferably from multiple institutions. In federated learning (FL), a model is trained collaboratively at numerous sites that hold local datasets without exchanging them. So far, the impact of training strategy, i.e., local versus collaborative, on the diagnostic on-domain and off-domain performance of AI models interpreting chest radiographs has not been assessed. Consequently, using 610,000 chest radiographs from five institutions across the globe, we assessed diagnostic performance as a function of training strategy (i.e., local vs. collaborative), network architecture (i.e., convolutional vs. transformer-based), generalization performance (i.e., on-domain vs. off-domain), imaging finding (i.e., cardiomegaly, pleural effusion, pneumonia, atelectasis, consolidation, pneumothorax, and no abnormality), dataset size (i.e., from n=18,000 to 213,921 radiographs), and dataset diversity. Large datasets not only showed minimal performance gains with FL but, in some instances, even exhibited decreases. In contrast, smaller datasets revealed marked improvements. Thus, on-domain performance was mainly driven by training data size. However, off-domain performance leaned more on training diversity. When trained collaboratively across diverse external institutions, AI models consistently surpassed models trained locally for off-domain tasks, emphasizing FL’s potential in leveraging data diversity. In conclusion, FL can bolster diagnostic privacy, reproducibility, and off-domain reliability of AI models and, potentially, optimize healthcare outcomes.

arxiv情報

著者 Soroosh Tayebi Arasteh,Christiane Kuhl,Marwin-Jonathan Saehn,Peter Isfort,Daniel Truhn,Sven Nebelung
発行日 2023-12-19 13:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク