Synthetic Simplicity: Unveiling Bias in Medical Data Augmentation

要約

合成データは、医療画像などのデータが不足している分野でますます不可欠になり、実際のデータの代替として機能します。
ただし、その固有の統計的特性は下流のタスクに大きな影響を与え、展開のパフォーマンスを損なう可能性があります。
この研究では、この問題を実証的に調査し、重大な現象を明らかにしました。データ ソースとタスク ラベルの間に強い相関関係がある場合、下流のニューラル ネットワークは、実際のデータと合成データの間の誤った区別を悪用することがよくあります。
この悪用は \textit{単純性バイアス} として現れ、モデルは真のタスク関連の複雑さではなく、表面的な機能に過度に依存します。
原理に基づいた実験を通じて、相関関係が存在しない場合、データのソース (本物と合成) によって誤った相関係数が導入され、導入時のパフォーマンス低下につながる可能性があることを実証します。
まず、数字分類タスクでこの脆弱性を実証します。このタスクでは、モデルが推論を提供するために数字の代わりにデータ ソースを誤って利用します。
我々は、心エコー図における心臓ビューの分類、特に 2 腔ビューと 4 腔ビューの区別に関連する医用画像問題におけるこの現象のさらなる証拠を提供します。
合成データセットを利用する役割が増大していることを考慮すると、私たちの実験がモデルのトレーニングで合成データセットを利用するための効果的なガイドラインとして役立つことを願っています。

要約(オリジナル)

Synthetic data is becoming increasingly integral in data-scarce fields such as medical imaging, serving as a substitute for real data. However, its inherent statistical characteristics can significantly impact downstream tasks, potentially compromising deployment performance. In this study, we empirically investigate this issue and uncover a critical phenomenon: downstream neural networks often exploit spurious distinctions between real and synthetic data when there is a strong correlation between the data source and the task label. This exploitation manifests as \textit{simplicity bias}, where models overly rely on superficial features rather than genuine task-related complexities. Through principled experiments, we demonstrate that the source of data (real vs.\ synthetic) can introduce spurious correlating factors leading to poor performance during deployment when the correlation is absent. We first demonstrate this vulnerability on a digit classification task, where the model spuriously utilizes the source of data instead of the digit to provide an inference. We provide further evidence of this phenomenon in a medical imaging problem related to cardiac view classification in echocardiograms, particularly distinguishing between 2-chamber and 4-chamber views. Given the increasing role of utilizing synthetic datasets, we hope that our experiments serve as effective guidelines for the utilization of synthetic datasets in model training.

arxiv情報

著者 Krishan Agyakari Raja Babu,Rachana Sathish,Mrunal Pattanaik,Rahul Venkataramani
発行日 2024-07-31 15:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク