要約
医療画像基盤モデルは、最小限の微調整で臓器や腫瘍をセグメント化する機能を示しています。
これらのモデルは通常、タスク固有の分布内 (ID) データセットで評価されます。
ただし、ID データセットでの信頼できるパフォーマンスは、分布外 (OOD) データセットでの堅牢な一般化を保証するものではありません。
重要なのは、臨床使用に導入すると、特に画像プロトコルが異なるために画像が OOD カテゴリに分類される場合、継続的なパフォーマンスの変動を評価するために「グラウンド トゥルース」を定義することは非現実的です。
そこで、自己教師あり学習 (SSL) でトレーニングされた複数の基礎モデル (Swin UNETR、SimMIM、iBOT、SMIT) のパフォーマンスを評価するために、計算速度が速いメトリクスの包括的なセットを導入しました。
SSL 事前トレーニングが選択されたのは、このアプローチが大規模で多様なラベルのない画像セットに適用できるためです。
すべてのモデルは、コンピューター断層撮影 (CT) スキャンからの肺腫瘍セグメンテーション用の同一のデータセットに基づいて微調整されました。
SimMIM、iBOT、および SMIT は、同一のアーキテクチャ、事前トレーニング、および微調整データセットを使用して、SSL で使用されるプレテキスト タスクの選択によるパフォーマンスの変動を評価しました。
評価は、トレーニング データ(ステージ III ~ IV の肺がんの公的リソース n = 317)と比較して、画像取得と腫瘍ステージが異なる 2 つの公的肺がんデータセット(LRAD: n = 140、5Rater: n = 21)で実行されました。
肺塞栓症患者の容積測定 CT スキャンを含む非癌データセット (n = 120)。
すべてのモデルで、肺がん検査データセットに対して同様に正確な腫瘍セグメンテーションが生成されました。
SMIT は最高の F1 スコア (LRAD: 0.60、5Rater: 0.64) と最低のエントロピー (LRAD: 0.06、5Rater: 0.12) を生成し、より高い腫瘍検出率と信頼性の高いセグメンテーションを示しました。
OOD データセットでは、SMIT は最小数の腫瘍を誤検出しました。これは、次善の方法である SimMIM の 9.97 cc と比較して、体積占有中央値 5.67 cc で示されています。
要約(オリジナル)
Medical image foundation models have shown the ability to segment organs and tumors with minimal fine-tuning. These models are typically evaluated on task-specific in-distribution (ID) datasets. However, reliable performance on ID dataset does not guarantee robust generalization on out-of-distribution (OOD) datasets. Importantly, once deployed for clinical use, it is impractical to have `ground truth’ delineations to assess ongoing performance drifts, especially when images fall into OOD category due to different imaging protocols. Hence, we introduced a comprehensive set of computationally fast metrics to evaluate the performance of multiple foundation models (Swin UNETR, SimMIM, iBOT, SMIT) trained with self-supervised learning (SSL). SSL pretraining was selected as this approach is applicable for large, diverse, and unlabeled image sets. All models were fine-tuned on identical datasets for lung tumor segmentation from computed tomography (CT) scans. SimMIM, iBOT, and SMIT used identical architecture, pretraining, and fine-tuning datasets to assess performance variations with the choice of pretext tasks used in SSL. Evaluation was performed on two public lung cancer datasets (LRAD: n = 140, 5Rater: n = 21) with different image acquisitions and tumor stage compared to training data (n = 317 public resource with stage III-IV lung cancers) and a public non-cancer dataset containing volumetric CT scans of patients with pulmonary embolism (n = 120). All models produced similarly accurate tumor segmentation on the lung cancer testing datasets. SMIT produced a highest F1-score (LRAD: 0.60, 5Rater: 0.64) and lowest entropy (LRAD: 0.06, 5Rater: 0.12), indicating higher tumor detection rate and confident segmentations. In the OOD dataset, SMIT misdetected least number of tumors, indicated by median volume occupancy of 5.67 cc compared to second best method SimMIM of 9.97 cc.
arxiv情報
著者 | Aneesh Rangnekar,Nishant Nadkarni,Jue Jiang,Harini Veeraraghavan |
発行日 | 2024-09-04 17:29:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google