Multicenter Privacy-Preserving Model Training for Deep Learning Brain Metastases Autosegmentation

要約

目的: この研究の目的は、多施設データの異質性が深層学習の脳転移 (BM) 自動セグメント化のパフォーマンスに及ぼす影響を調査し、生データを共有せずにモデルの一般化性を向上させる増分転移学習手法、つまり忘れることなく学習 (LWF) の有効性を評価することです。
データ。
材料と方法: この評価には、エルランゲン大学病院 (UKER)、チューリッヒ大学病院 (USZ)、スタンフォード大学、UCSF、ニューヨーク大学、および BM セグメンテーションに関する BraTS Challenge 2023 からの合計 6 つの BM データセットが使用されました。
まず、BM 自動セグメンテーション用の畳み込みニューラル ネットワーク (DeepMedic) の多センター パフォーマンスが、排他的な単一センター トレーニングとプールされたデータでのトレーニングそれぞれに対して確立されました。
その後、二国間協力が評価されました。UKER の事前トレーニング済みモデルは、LWF の有無にかかわらず転移学習 (TL) を使用してさらにトレーニングするために別のセンターと共有されます。
結果: 単一施設トレーニングの場合、BM 検出の平均 F1 スコアは、それぞれの単一施設テスト データで 0.625 (NYU) から 0.876 (UKER) の範囲でした。
混合多施設トレーニングにより、スタンフォード大学とニューヨーク大学では F1 スコアが著しく向上しましたが、他の施設ではほとんど改善がありませんでした。
UKER 事前トレーニング済みモデルを USZ に適用すると、UKER と USZ のテスト データを組み合わせた場合、LWF はナイーブ TL (0.570) および単一施設トレーニング (0.688) よりも高い平均 F1 スコア (0.839) を達成します。
Naive TL は感度と輪郭精度を向上させますが、精度は犠牲になります。
逆に、LWF は賞賛に値する感度、精度、輪郭精度を示します。
スタンフォード大学に適用すると、同様のパフォーマンスが観察されました。
結論: データの異質性により、BM 自動セグメンテーションのパフォーマンスが変動し、モデルの一般化性に課題が生じます。
LWF は、ピアツーピアのプライバシー保護モデルのトレーニングに対する有望なアプローチです。

要約(オリジナル)

Objectives: This work aims to explore the impact of multicenter data heterogeneity on deep learning brain metastases (BM) autosegmentation performance, and assess the efficacy of an incremental transfer learning technique, namely learning without forgetting (LWF), to improve model generalizability without sharing raw data. Materials and methods: A total of six BM datasets from University Hospital Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU and BraTS Challenge 2023 on BM segmentation were used for this evaluation. First, the multicenter performance of a convolutional neural network (DeepMedic) for BM autosegmentation was established for exclusive single-center training and for training on pooled data, respectively. Subsequently bilateral collaboration was evaluated, where a UKER pretrained model is shared to another center for further training using transfer learning (TL) either with or without LWF. Results: For single-center training, average F1 scores of BM detection range from 0.625 (NYU) to 0.876 (UKER) on respective single-center test data. Mixed multicenter training notably improves F1 scores at Stanford and NYU, with negligible improvement at other centers. When the UKER pretrained model is applied to USZ, LWF achieves a higher average F1 score (0.839) than naive TL (0.570) and single-center training (0.688) on combined UKER and USZ test data. Naive TL improves sensitivity and contouring accuracy, but compromises precision. Conversely, LWF demonstrates commendable sensitivity, precision and contouring accuracy. When applied to Stanford, similar performance was observed. Conclusion: Data heterogeneity results in varying performance in BM autosegmentation, posing challenges to model generalizability. LWF is a promising approach to peer-to-peer privacy-preserving model training.

arxiv情報

著者 Yixing Huang,Zahra Khodabakhshi,Ahmed Gomaa,Manuel Schmidt,Rainer Fietkau,Matthias Guckenberger,Nicolaus Andratschke,Christoph Bert,Stephanie Tanadini-Lang,Florian Putz
発行日 2024-05-17 16:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク