Data-Centric Diet: Effective Multi-center Dataset Pruning for Medical Image Segmentation

要約

この論文は、精度をあまり犠牲にすることなく、データセットのか​​なりの部分を切り詰めることができる密なラベル付けの問題に対処することを目指しています。
標準的な医用画像セグメンテーション ベンチマークでは、画像分類に適用される個々のトレーニング サンプルの損失勾配ノルムに基づくメトリクスが重要なサンプルを識別できないことが観察されています。
この問題に対処するために、Dynamic Average Dice (DAD) スコアを使用してターゲット領域のトレーニング ダイナミクスを考慮することにより、データ プルーニング手法を提案します。
私たちの知る限り、当社は医用画像解析分野の高密度ラベル付けタスクにおけるデータの重要性にいち早く取り組んだ企業の 1 つであり、(1) 厳密な実証分析による根本原因の調査、および (2)
密なラベル付け問題における効果的なデータ プルーニング アプローチを決定します。
当社のソリューションは、データ ソースを組み合わせて医療画像セグメンテーションの重要な例を選択するための、強力かつシンプルなベースラインとして使用できます。

要約(オリジナル)

This paper seeks to address the dense labeling problems where a significant fraction of the dataset can be pruned without sacrificing much accuracy. We observe that, on standard medical image segmentation benchmarks, the loss gradient norm-based metrics of individual training examples applied in image classification fail to identify the important samples. To address this issue, we propose a data pruning method by taking into consideration the training dynamics on target regions using Dynamic Average Dice (DAD) score. To the best of our knowledge, we are among the first to address the data importance in dense labeling tasks in the field of medical image analysis, making the following contributions: (1) investigating the underlying causes with rigorous empirical analysis, and (2) determining effective data pruning approach in dense labeling problems. Our solution can be used as a strong yet simple baseline to select important examples for medical image segmentation with combined data sources.

arxiv情報

著者 Yongkang He,Mingjin Chen,Zhijing Yang,Yongyi Lu
発行日 2023-08-02 14:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク