Confidence intervals for performance estimates in 3D medical image segmentation

要約

医療セグメンテーション モデルは経験的に評価されます。
このような評価は限られたサンプル画像のセットに基づいているため、ノイズが多くなるのは避けられません。
したがって、平均パフォーマンス測定を超えて、信頼区間を報告することが重要です。
ただし、医療画像のセグメンテーションではこれが行われることはほとんどありません。
信頼区間の幅は、テスト セットのサイズとパフォーマンス測定の広がり (テスト セット全体にわたる標準偏差) によって異なります。
分類には、信頼区間が広くならないように、多くのテスト画像が必要です。
ただし、セグメンテーションは研究されておらず、特定のテスト画像によってもたらされる情報の量によって異なります。
この論文では、医療画像セグメンテーションにおける典型的な信頼区間について研究します。
私たちは、標準の nnU-net フレームワーク、Medical Decathlon チャレンジからの 2 つのデータセット、および Dice 精度とハウスドルフ距離という 2 つのパフォーマンス測定値を使用して、3D 画像セグメンテーションの実験を行っています。
パラメトリック信頼区間が、さまざまなテスト セット サイズとパフォーマンス メトリックの広がりに対するブートストラップ推定値の妥当な近似値であることを示します。
重要なのは、特定の精度を達成するために必要なテストのサイズが、多くの場合、分類タスクの場合よりもはるかに小さいことを示しています。
通常、広がりが低い場合 (標準偏差が約 3%)、1% 幅の信頼区間には約 100 ~ 200 のテスト サンプルが必要です。
より困難なセグメンテーション タスクではスプレッドが大きくなり、1000 を超えるサンプルが必要になる場合があります。

要約(オリジナル)

Medical segmentation models are evaluated empirically. As such an evaluation is based on a limited set of example images, it is unavoidably noisy. Beyond a mean performance measure, reporting confidence intervals is thus crucial. However, this is rarely done in medical image segmentation. The width of the confidence interval depends on the test set size and on the spread of the performance measure (its standard-deviation across of the test set). For classification, many test images are needed to avoid wide confidence intervals. Segmentation, however, has not been studied, and it differs by the amount of information brought by a given test image. In this paper, we study the typical confidence intervals in medical image segmentation. We carry experiments on 3D image segmentation using the standard nnU-net framework, two datasets from the Medical Decathlon challenge and two performance measures: the Dice accuracy and the Hausdorff distance. We show that the parametric confidence intervals are reasonable approximations of the bootstrap estimates for varying test set sizes and spread of the performance metric. Importantly, we show that the test size needed to achieve a given precision is often much lower than for classification tasks. Typically, a 1% wide confidence interval requires about 100-200 test samples when the spread is low (standard-deviation around 3%). More difficult segmentation tasks may lead to higher spreads and require over 1000 samples.

arxiv情報

著者 R. El Jurdi,G. Varoquaux,O. Colliot
発行日 2023-07-21 09:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク