From Competition to Collaboration: Making Toy Datasets on Kaggle Clinically Useful for Chest X-Ray Diagnosis Using Federated Learning

要約

Kaggle でホストされている胸部 X 線 (CXR) データセットは、データ サイエンスの競争の観点からは有用ですが、1 つの特定の疾患の診断に焦点が絞られているため、臨床使用での有用性は限られています。
実際の臨床使用では、同じ患者に複数の疾患が共存する可能性があるため、複数の疾患を考慮する必要があります。
この作業では、フェデレーテッド ラーニング (FL) を使用して、Kaggle のおもちゃの CXR データセットを臨床的に有用にする方法を示します。
具体的には、2 つの個別の CXR データセットを使用して単一の FL 分類モデル (「グローバル」) をトレーニングします。1 つは肺炎の存在について、もう 1 つは気胸 (2 つの一般的で生命を脅かす状態) の存在について注釈が付けられ、両方を診断できます。
グローバル FL モデルのパフォーマンスを、2 つの異なるモデル アーキテクチャの両方のデータセット (「ベースライン」) で個別にトレーニングされたモデルと比較します。
標準的な単純な 3 層 CNN アーキテクチャでは、グローバル FL モデルは、両方のベースライン モデルでそれぞれ 0.85 と 0.82 であったのに対し、肺炎と気胸でそれぞれ 0.84 と 0.81 の AUROC を達成しました (p>0.05)。
同様に、事前トレーニング済みの DenseNet121 アーキテクチャでは、グローバル FL モデルは、両方のベースライン モデルでそれぞれ 0.89 と 0.91 であったのに対し、肺炎と気胸でそれぞれ 0.88 と 0.91 の AUROC を達成しました (p>0.05)。
私たちの結果は、FL を使用してグローバルな「メタ」モデルを作成し、Kaggle のおもちゃのデータセットを臨床的に有用なものにすることができることを示唆しています。これは、ベンチからベッドサイドまでのギャップを埋めるための一歩です。

要約(オリジナル)

Chest X-ray (CXR) datasets hosted on Kaggle, though useful from a data science competition standpoint, have limited utility in clinical use because of their narrow focus on diagnosing one specific disease. In real-world clinical use, multiple diseases need to be considered since they can co-exist in the same patient. In this work, we demonstrate how federated learning (FL) can be used to make these toy CXR datasets from Kaggle clinically useful. Specifically, we train a single FL classification model (`global`) using two separate CXR datasets — one annotated for presence of pneumonia and the other for presence of pneumothorax (two common and life-threatening conditions) — capable of diagnosing both. We compare the performance of the global FL model with models trained separately on both datasets (`baseline`) for two different model architectures. On a standard, naive 3-layer CNN architecture, the global FL model achieved AUROC of 0.84 and 0.81 for pneumonia and pneumothorax, respectively, compared to 0.85 and 0.82, respectively, for both baseline models (p>0.05). Similarly, on a pretrained DenseNet121 architecture, the global FL model achieved AUROC of 0.88 and 0.91 for pneumonia and pneumothorax, respectively, compared to 0.89 and 0.91, respectively, for both baseline models (p>0.05). Our results suggest that FL can be used to create global `meta` models to make toy datasets from Kaggle clinically useful, a step forward towards bridging the gap from bench to bedside.

arxiv情報

著者 Pranav Kulkarni,Adway Kanhere,Paul H. Yi,Vishwa S. Parekh
発行日 2022-11-11 14:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク