How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks

要約

ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットを利用する必要がある。しかし、そのようなデータセットの入手は困難であり、特にニューロイメージング解析タスクの文脈では、画像の取得とアノテーションに関連するコストが高額になる可能性がある。モデル開発に伴う時間的・金銭的コストを軽減するためには、満足のいくモデルを学習するために必要なデータ量を明確に理解することが重要である。本稿では、モデル開発前のディープラーニング研究の初期段階に焦点を当て、パッチベースのセグメンテーションネットワークの学習に必要なアノテーションデータの量を推定するための戦略的フレームワークを提案する。このフレームワークには、新規なMinBAT(Minor Boundary Adjustment for Threshold)法を用いた期待性能の確立と、REPS(ROI-based Expanded Patch Selection)法を用いたパッチ選択の標準化が含まれる。我々の実験により、異なるサイズや形状の関心領域(ROI)を含むタスクでは、許容可能なダイス類似度係数(DSC)スコアがばらつく可能性があることが実証された。許容可能なDSCを目標として設定することで、必要な学習データ量を見積もることができ、さらにはデータの蓄積に応じて予測することもできる。このアプローチは、研究者やエンジニアが、ディープニューラルネットワークに基づく新しいセグメンテーションタスクを定義する際に、データ収集とアノテーションに関連するコストを見積もるのに役立ち、最終的に、実世界のアプリケーションへの効率的な適用に貢献する。

要約(オリジナル)

Training deep neural networks reliably requires access to large-scale datasets. However, obtaining such datasets can be challenging, especially in the context of neuroimaging analysis tasks, where the cost associated with image acquisition and annotation can be prohibitive. To mitigate both the time and financial costs associated with model development, a clear understanding of the amount of data required to train a satisfactory model is crucial. This paper focuses on an early stage phase of deep learning research, prior to model development, and proposes a strategic framework for estimating the amount of annotated data required to train patch-based segmentation networks. This framework includes the establishment of performance expectations using a novel Minor Boundary Adjustment for Threshold (MinBAT) method, and standardizing patch selection through the ROI-based Expanded Patch Selection (REPS) method. Our experiments demonstrate that tasks involving regions of interest (ROIs) with different sizes or shapes may yield variably acceptable Dice Similarity Coefficient (DSC) scores. By setting an acceptable DSC as the target, the required amount of training data can be estimated and even predicted as data accumulates. This approach could assist researchers and engineers in estimating the cost associated with data collection and annotation when defining a new segmentation task based on deep neural networks, ultimately contributing to their efficient translation to real-world applications.

arxiv情報

著者 Dongang Wang,Peilin Liu,Hengrui Wang,Heidi Beadnall,Kain Kyle,Linda Ly,Mariano Cabezas,Geng Zhan,Ryan Sullivan,Weidong Cai,Wanli Ouyang,Fernando Calamante,Michael Barnett,Chenyu Wang
発行日 2024-04-04 13:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク