要約
ディープラーニング(DL)は、医療画像セグメンテーションの支配的なアプローチとなっていますが、これらのモデルの信頼性と臨床的適用性を確保するには、注釈の変動、キャリブレーション、不確実性の推定などの重要な課題に対処する必要があります。
これが、マルチオルガンセグメンテーション(曲線)におけるマルチリーターボリューム評価のキャリブレーションと不確実性を作成した理由です。これは、より包括的なグラウンドトゥルースを確立する上で複数のアノテーターの重要な役割を強調し、セグメンテーションが本質的に主観的であり、アノテーター間の変動を活用することは堅牢なモデル評価に不可欠であることを強調します。
7つのチームがチャレンジに参加し、サイコロの類似性係数(DSC)、予想キャリブレーションエラー(ECE)、および連続ランク付けされた確率スコア(CRPS)などのメトリックを使用して評価されたさまざまなDLモデルを提出しました。
コンセンサスと反対の基本真理を組み込むことにより、DLモデルが不確実性を処理する方法と、自信の推定値が真のセグメンテーションパフォーマンスと一致するかどうかを評価します。
より良いキャリブレーションは結果の品質と強く相関しているため、私たちの調査結果は十分に調整されたモデルの重要性を強化します。
さらに、特に標準的な解剖学的構造から逸脱している場合、多様なデータセットで訓練され、事前に訓練された知識で濃縮されたセグメンテーションモデルは、より大きな堅牢性を示すことを実証します。
特に、最高のパフォーマンスモデルでは、高DSCと適切に調整された不確実性の推定値が達成されました。
この作業は、マルチアノテーターグラウンドトゥルース、徹底的なキャリブレーション評価、および信頼できる臨床的に信頼性の高いDLベースの医療画像セグメンテーションモデルを開発するための不確実性対応評価の必要性を強調しています。
要約(オリジナル)
Deep learning (DL) has become the dominant approach for medical image segmentation, yet ensuring the reliability and clinical applicability of these models requires addressing key challenges such as annotation variability, calibration, and uncertainty estimation. This is why we created the Calibration and Uncertainty for multiRater Volume Assessment in multiorgan Segmentation (CURVAS), which highlights the critical role of multiple annotators in establishing a more comprehensive ground truth, emphasizing that segmentation is inherently subjective and that leveraging inter-annotator variability is essential for robust model evaluation. Seven teams participated in the challenge, submitting a variety of DL models evaluated using metrics such as Dice Similarity Coefficient (DSC), Expected Calibration Error (ECE), and Continuous Ranked Probability Score (CRPS). By incorporating consensus and dissensus ground truth, we assess how DL models handle uncertainty and whether their confidence estimates align with true segmentation performance. Our findings reinforce the importance of well-calibrated models, as better calibration is strongly correlated with the quality of the results. Furthermore, we demonstrate that segmentation models trained on diverse datasets and enriched with pre-trained knowledge exhibit greater robustness, particularly in cases deviating from standard anatomical structures. Notably, the best-performing models achieved high DSC and well-calibrated uncertainty estimates. This work underscores the need for multi-annotator ground truth, thorough calibration assessments, and uncertainty-aware evaluations to develop trustworthy and clinically reliable DL-based medical image segmentation models.
arxiv情報
著者 | Meritxell Riera-Marin,Sikha O K,Julia Rodriguez-Comas,Matthias Stefan May,Zhaohong Pan,Xiang Zhou,Xiaokun Liang,Franciskus Xaverius Erick,Andrea Prenner,Cedric Hemon,Valentin Boussot,Jean-Louis Dillenseger,Jean-Claude Nunes,Abdul Qayyum,Moona Mazher,Steven A Niederer,Kaisar Kushibar,Carlos Martin-Isla,Petia Radeva,Karim Lekadir,Theodore Barfoot,Luis C. Garcia Peraza Herrera,Ben Glocker,Tom Vercauteren,Lucas Gago,Justin Englemann,Joy-Marie Kleiss,Anton Aubanell,Andreu Antolin,Javier Garcia-Lopez,Miguel A. Gonzalez Ballester,Adrian Galdran |
発行日 | 2025-05-13 15:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google