Quantifying uncertainty in lung cancer segmentation with foundation models applied to mixed-domain datasets

要約

Medical Image Foundationモデルは、微調整を最小限に抑えて臓器と腫瘍をセグメント化する能力を示しています。
これらのモデルは通常、タスク固有の分布(ID)データセットで評価されます。
ただし、IDデータセットでの信頼性の高いパフォーマンスは、分散除外(OOD)データセットの堅牢な一般化を保証しません。
重要なことに、臨床使用のために展開されると、特に画像プロトコルが異なるために画像がOODカテゴリに分類される場合、継続的なパフォーマンスドリフトを評価するために「グラウンドトゥルース」の描写があることは非現実的です。
したがって、自己監視学習(SSL)で訓練された複数の基礎モデル(SWIN UNETR、SIMMIM、IBOT、SMIT)のパフォーマンスを評価するために、計算的に高速なメトリックの包括的なセットを導入しました。
すべてのモデルは、コンピューター断層撮影(CT)スキャンからの肺腫瘍セグメンテーションの同一のデータセットで微調整されました。
評価は、トレーニングデータ(ステージIII-IV肺がんを伴うn = 317公共リソース)と比較して、異なる画像取得と腫瘍段階で、2つの公共肺がんデータセット(LRAD:n = 140、5rater:n = 21)で実行されました。
肺塞栓症の患者の体積CTスキャンを含む公共非癌データセット(n = 120)。
すべてのモデルは、肺がん検査データセットで同様に正確な腫瘍セグメンテーションを生成しました。
SMITは、最高のF1スコア(LRAD:0.60、5Rater:0.64)と最低エントロピー(LRAD:0.06、5Rater:0.12)を生成し、腫瘍検出率が高いことと自信のあるセグメンテーションを示しています。
OODデータセットでは、SMITは9.97 ccの最良の方法と比較して5.67 ccの中央値占有率によってマークされた腫瘍の最小数を誤解しました。
分析は、エントロピーやボリューム占有などの追加のメトリックが、混合ドメインデータセットのモデルパフォーマンスをよりよく理解するのに役立つ可能性があることを示しています。

要約(オリジナル)

Medical image foundation models have shown the ability to segment organs and tumors with minimal fine-tuning. These models are typically evaluated on task-specific in-distribution (ID) datasets. However, reliable performance on ID datasets does not guarantee robust generalization on out-of-distribution (OOD) datasets. Importantly, once deployed for clinical use, it is impractical to have `ground truth’ delineations to assess ongoing performance drifts, especially when images fall into the OOD category due to different imaging protocols. Hence, we introduced a comprehensive set of computationally fast metrics to evaluate the performance of multiple foundation models (Swin UNETR, SimMIM, iBOT, SMIT) trained with self-supervised learning (SSL). All models were fine-tuned on identical datasets for lung tumor segmentation from computed tomography (CT) scans. The evaluation was performed on two public lung cancer datasets (LRAD: n = 140, 5Rater: n = 21) with different image acquisitions and tumor stages compared to training data (n = 317 public resource with stage III-IV lung cancers) and a public non-cancer dataset containing volumetric CT scans of patients with pulmonary embolism (n = 120). All models produced similarly accurate tumor segmentation on the lung cancer testing datasets. SMIT produced the highest F1-score (LRAD: 0.60, 5Rater: 0.64) and lowest entropy (LRAD: 0.06, 5Rater: 0.12), indicating higher tumor detection rate and confident segmentations. In the OOD dataset, SMIT misdetected the least number of tumors, marked by a median volume occupancy of 5.67 cc compared to the best method SimMIM of 9.97 cc. Our analysis shows that additional metrics such as entropy and volume occupancy may help better understand model performance on mixed domain datasets.

arxiv情報

著者 Aneesh Rangnekar,Nishant Nadkarni,Jue Jiang,Harini Veeraraghavan
発行日 2025-01-30 15:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク