Dataset Distillation in Medical Imaging: A Feasibility Study

要約

医用画像分析分野におけるデータ共有には可能性があるにもかかわらず、まだ十分に評価されていません。
多くの場合、目的は、データセットを他のサイトと効率的に共有して、モデルを効果的にトレーニングすることです。
考えられる解決策の 1 つは、同様のモデル パフォーマンスを達成しながら、データセット全体の転送を回避することです。
コンピューターサイエンスにおけるデータ蒸留の最近の進歩により、モデルの有効性を大幅に損なうことなく医療データを効率的に共有できる有望な見通しがもたらされています。
ただし、医療画像と自然画像は別の分野であるため、これらの方法が医療画像に適用できるかどうかは不明です。
さらに、これらの方法でどのレベルのパフォーマンスが達成できるかを検討することは興味深いものです。
これらの質問に答えるために、私たちは医療画像のさまざまな状況において、さまざまな主要なデータ抽出方法について調査を実施しています。
私たちは、次の 2 つの側面で広範な実験を行って、これらの方法の実現可能性を評価します。 1) わずかな変動または大きな変動によって特徴付けられる複数のデータセットにわたるデータ蒸留の影響を評価します。
2) 蒸留パフォーマンスを予測するための指標を調べます。
複数の医療データセットにわたる広範な実験により、データを蒸留すると、完全なデータセットで達成されるのと同等のモデルのパフォーマンスを維持しながら、データセットのサイズを大幅に削減できることが明らかになり、画像の代表的な小さなサンプルが蒸留の成功の信頼できる指標として機能できることが示唆されています。
この研究は、データ蒸留が効率的かつ安全な医療データ共有のための実行可能な方法であり、共同研究や臨床応用の強化を促進する可能性があることを示しています。

要約(オリジナル)

Data sharing in the medical image analysis field has potential yet remains underappreciated. The aim is often to share datasets efficiently with other sites to train models effectively. One possible solution is to avoid transferring the entire dataset while still achieving similar model performance. Recent progress in data distillation within computer science offers promising prospects for sharing medical data efficiently without significantly compromising model effectiveness. However, it remains uncertain whether these methods would be applicable to medical imaging, since medical and natural images are distinct fields. Moreover, it is intriguing to consider what level of performance could be achieved with these methods. To answer these questions, we conduct investigations on a variety of leading data distillation methods, in different contexts of medical imaging. We evaluate the feasibility of these methods with extensive experiments in two aspects: 1) Assess the impact of data distillation across multiple datasets characterized by minor or great variations. 2) Explore the indicator to predict the distillation performance. Our extensive experiments across multiple medical datasets reveal that data distillation can significantly reduce dataset size while maintaining comparable model performance to that achieved with the full dataset, suggesting that a small, representative sample of images can serve as a reliable indicator of distillation success. This study demonstrates that data distillation is a viable method for efficient and secure medical data sharing, with the potential to facilitate enhanced collaborative research and clinical applications.

arxiv情報

著者 Muyang Li,Can Cui,Quan Liu,Ruining Deng,Tianyuan Yao,Marilyn Lionts,Yuankai Huo
発行日 2024-07-19 15:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク