要約
医用画像処理における重要な課題は、アルゴリズムのパフォーマンスだけでなく、これらのパフォーマンスの推定精度も推定できるようにすることです。
レポートの精度は通常、平均値の標準誤差 (SEM) または同等の信頼区間のレポートに相当します。
ただし、これは医療画像セグメンテーション研究ではめったに行われません。
このホワイト ペーパーでは、そのような研究で期待できる典型的な信頼度を推定することを目的としています。
そのために、まず、標準的な深層学習モデル (U-net) と Medical Segmentation Decathlon の古典的なタスクを使用して、Dice メトリック推定の実験を行います。
ガウス仮定とブートストラップ (分布に関する仮定を必要としない) の両方を使用して、精度推定を広く研究しています。
次に、他のテスト セット サイズとパフォーマンス スプレッドのシミュレーションを実行します。
全体として、私たちの研究は、小さなテスト セットが広い信頼区間 (20 個のサンプルに対して $\sim$6 ダイスのポイント) につながること、および 2 より狭い信頼区間を取得するには、少なくとも 200 個のテスト サンプルが必要であることを示しています。
.
要約(オリジナル)
An important issue in medical image processing is to be able to estimate not only the performances of algorithms but also the precision of the estimation of these performances. Reporting precision typically amounts to reporting standard-error of the mean (SEM) or equivalently confidence intervals. However, this is rarely done in medical image segmentation studies. In this paper, we aim to estimate what is the typical confidence that can be expected in such studies. To that end, we first perform experiments for Dice metric estimation using a standard deep learning model (U-net) and a classical task from the Medical Segmentation Decathlon. We extensively study precision estimation using both Gaussian assumption and bootstrapping (which does not require any assumption on the distribution). We then perform simulations for other test set sizes and performance spreads. Overall, our work shows that small test sets lead to wide confidence intervals ($\sim$6 points of Dice for 20 samples) and that, in order to obtain a confidence interval narrower than 2, it is necessary to have at least 200 test samples.
arxiv情報
著者 | Rosana El Jurdi,Olivier Colliot |
発行日 | 2022-10-26 12:53:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google