Is More Data All You Need? A Causal Exploration

要約

機械学習アプリケーションのための大規模な医用画像データセットのキュレーションは、時間とコストの両方がかかる。モデル開発、データ収集、アノテーションの作業負荷のバランスをとることは、機械学習の実務家にとって、特に時間的制約がある場合には困難である。因果分析は、行動や政策の効果について洞察を得るために、医学や経済学でしばしば使用される。この論文では、画像分類モデルの出力に対するデータセットの介入の効果を探る。因果的なアプローチを通して、特定のサブタスクに対してより良いパフォーマンスを得るためにデータセットに取り込むべきデータの量と種類の効果を調査する。本論文の主な目的は、医用画像MLアプリケーションを開発するためのリソース最適化のツールとしての因果分析の可能性を強調することである。我々は、合成データセットと糖尿病性網膜症の画像解析のための例示的なユースケースを用いてこの概念を探求する。

要約(オリジナル)

Curating a large scale medical imaging dataset for machine learning applications is both time consuming and expensive. Balancing the workload between model development, data collection and annotations is difficult for machine learning practitioners, especially under time constraints. Causal analysis is often used in medicine and economics to gain insights about the effects of actions and policies. In this paper we explore the effect of dataset interventions on the output of image classification models. Through a causal approach we investigate the effects of the quantity and type of data we need to incorporate in a dataset to achieve better performance for specific subtasks. The main goal of this paper is to highlight the potential of causal analysis as a tool for resource optimization for developing medical imaging ML applications. We explore this concept with a synthetic dataset and an exemplary use-case for Diabetic Retinopathy image analysis.

arxiv情報

著者 Athanasios Vlontzos,Hadrien Reynaud,Bernhard Kainz
発行日 2022-06-06 08:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク